이형준 굣님과 면담 날짜 잡기 ✅
황호성 굣님과 면담 날짜 잡기
지웅배 굣님과 면담 날짜 잡기(제안서 제출이 4/11까지라 얼른 한번 봬야 할 듯)
경희대 아이돌 문용재 교수님 문답날짜
기초 → 유명 논문 → 응용 연구 논문 흐름
✅ 1. 멀티모달의 개념을 잡는 기초 논문
“Multimodal Machine Learning: A Survey and Taxonomy” (Baltrušaitis et al., 2018)
📎 링크: https://arxiv.org/abs/1705.09406
- 멀티모달 머신러닝의 정의, 문제 유형 (representation, translation, alignment, fusion, co-learning), 데이터 종류(LiDAR, 텍스트, 이미지 등)까지 전반적으로 다룸
- 입문 논문으로 굿
✅ 2. 멀티모달 딥러닝의 대표 논문 (유명하고 영향력 큼)
“CLIP: Learning Transferable Visual Models From Natural Language Supervision” (Radford et al., 2021)
📎 링크: https://arxiv.org/abs/2103.00020
- OpenAI에서 발표한 멀티모달 모델.
- 이미지와 텍스트를 함께 학습시켜 “이미지 검색”, “이미지 캡셔닝” 등에 탁월한 성능을 보임.
- contrastive learning 기반 구조.
“ALIGN: Scaling up Visual and Vision-Language Representations With Noisy Text Supervision” (Jia et al., 2021, Google)
📎 링크: https://arxiv.org/abs/2102.05918
- CLIP과 비슷하지만, 훨씬 더 큰 데이터를 사용.
- noisy한 대규모 텍스트+이미지 데이터를 정제 없이 학습시켜 성능을 끌어올린 사례.
- CLIP과 함께 비교 분석하면 좋
“BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation” (Li et al., 2022)
📎 링크: https://arxiv.org/abs/2201.12086
VQA(Visual Question Answering), Captioning 같은 다양한 downstream task를 동시에 다룰 수 있도록 만든 모델
우리 연구 같이 멀티모달 생성에도 관심 있는 사람에게 좋
✅ 3. 생성형 AI와 멀티모달의 만남 (연구와 직접적으로 연결되는 파트)
“ImageBind: One Embedding Space to Bind Them All” (Girdhar et al., Meta AI, 2023)
📎 링크: https://arxiv.org/abs/2305.05665
- 텍스트, 이미지, 오디오, 깊이 정보, 온도 센서 등 다양한 modality를 하나의 임베딩 공간에 넣는 최신 연구.
- 우리 연구 같이 온도/센서 데이터 보완과 연결 가능성이 높음.
"Muse: Text-To-Image Generation via Masked Generative Transformers” (Chang et al., 2023)
📎 링크: https://arxiv.org/abs/2301.00704
- DALL·E와는 달리, masked token 기반으로 학습해 더 정교한 이미지 생성을 가능하게 함.
- 텍스트 → 이미지 생성 관련 연구에 유용.
“GIT: A Generative Image-to-text Transformer for Vision and Language” (Wang et al., 2022)
📎 링크: https://arxiv.org/abs/2205.14100
생성형 Transformer 기반으로 이미지에서 캡션을 생성하는 모델.
이미지 → 텍스트 생성 흐름을 이해하기 좋
✅ 트랜스포머 기반 멀티모달
“Multimodal Learning with Transformers: A Survey”
📎 링크: https://arxiv.org/abs/2206.06488
- 총 100페이지가 넘는 대규모 서베이 논문
- Transformer 기반의 멀티모달 학습을 중심으로 정리한 최신 통합 리뷰
- Transformer가 modality 간 정보를 어떻게 통합(fuse)하고 이해하는지, 그 아키텍처를 아주 깊이 있게다룸
1. 멀티모달 Transformer 아키텍처 4가지 유형 정리
• Single-stream: 예시 - UNITER, ViLBERT
• Dual-stream: 예시 - LXMERT
• Encoder-decoder 구조: 예시 - Flamingo, GIT
• Multimodal Prompting 방식: 최근의 GPT-4, Flamingo류
2. 다양한 모달리티 조합:
• 텍스트+이미지, 비디오, 오디오, 센서 등
• 실시간 스트리밍 데이터와의 결합도 다룸
3. 학습 방법론 분류:
• Supervised, Self-supervised, Contrastive learning 등
4. 응용 분야:
• VQA, Captioning, Retrieval, Multimodal Generation, Robotics 등
5. 멀티모달에서 Transformer가 가지는 한계와 오픈 챌린지
• 예: modality imbalance, cross-modal attention의 비용 문제 등
어떤 모델을 써 볼까?
Gemma 3 Release - a google Collection
huggingface.co
clip
blip
'Club|Project > 졸업 프로젝트 연구 트랙' 카테고리의 다른 글
👨🏻🚀 우주천문학 팀원들 첫 만남! + spaceAI 지웅배 교수님 미팅 (0) | 2025.04.01 |
---|---|
멀티 모달 기초 [Multimodal Machine Learning: A Survey and Taxonomy] 논문 리딩 (0) | 2025.03.28 |
🛰️ 천문우주과학 팀원 합류 (0) | 2025.03.25 |
우주먼지 지웅배 교수님 SpaceAI✨ (2) | 2025.03.22 |
🛰️ 천문우주과학 연구팀원 모집 🛰️ (0) | 2025.03.22 |