본문 바로가기
  • 컴공생의 공부 일기
  • 공부보단 일기에 가까운 것 같은
  • 블로그
Club|Project/졸업 프로젝트 연구 트랙

🧠 multi-model AI 공부 계획

by 정람지 2025. 3. 25.

이형준 굣님과 면담 날짜 잡기 ✅
황호성 굣님과 면담 날짜 잡기
지웅배 굣님과 면담 날짜 잡기(제안서 제출이 4/11까지라 얼른 한번 봬야 할 듯)

경희대 아이돌 문용재 교수님 문답날짜


 기초 → 유명 논문 → 응용 연구 논문 흐름


✅ 1. 멀티모달의 개념을 잡는 기초 논문



 “Multimodal Machine Learning: A Survey and Taxonomy” (Baltrušaitis et al., 2018)

📎 링크: https://arxiv.org/abs/1705.09406

 

- 멀티모달 머신러닝의 정의, 문제 유형 (representation, translation, alignment, fusion, co-learning), 데이터 종류(LiDAR, 텍스트, 이미지 등)까지 전반적으로 다룸

- 입문 논문으로 굿


✅ 2. 멀티모달 딥러닝의 대표 논문 (유명하고 영향력 큼)

 

“CLIP: Learning Transferable Visual Models From Natural Language Supervision” (Radford et al., 2021)

 

📎 링크: https://arxiv.org/abs/2103.00020

- OpenAI에서 발표한 멀티모달 모델.

- 이미지와 텍스트를 함께 학습시켜 “이미지 검색”, “이미지 캡셔닝” 등에 탁월한 성능을 보임.

- contrastive learning 기반 구조.

 

“ALIGN: Scaling up Visual and Vision-Language Representations With Noisy Text Supervision” (Jia et al., 2021, Google)

 

📎 링크: https://arxiv.org/abs/2102.05918

 

- CLIP과 비슷하지만, 훨씬 더 큰 데이터를 사용.

- noisy한 대규모 텍스트+이미지 데이터를 정제 없이 학습시켜 성능을 끌어올린 사례.
- CLIP과 함께 비교 분석하면 좋

 

 

“BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation” (Li et al., 2022)

 

📎 링크: https://arxiv.org/abs/2201.12086

 

VQA(Visual Question Answering), Captioning 같은 다양한 downstream task를 동시에 다룰 수 있도록 만든 모델

우리 연구 같이 멀티모달 생성에도 관심 있는 사람에게 좋


✅ 3. 생성형 AI와 멀티모달의 만남 (연구와 직접적으로 연결되는 파트)


“ImageBind: One Embedding Space to Bind Them All” (Girdhar et al., Meta AI, 2023)

 

📎 링크: https://arxiv.org/abs/2305.05665
- 텍스트, 이미지, 오디오, 깊이 정보, 온도 센서 등 다양한 modality를 하나의 임베딩 공간에 넣는 최신 연구.

- 우리 연구 같이 온도/센서 데이터 보완과 연결 가능성이 높음.

 

 

"Muse: Text-To-Image Generation via Masked Generative Transformers” (Chang et al., 2023)


📎 링크: https://arxiv.org/abs/2301.00704
- DALL·E와는 달리, masked token 기반으로 학습해 더 정교한 이미지 생성을 가능하게 함. 

- 텍스트 → 이미지 생성 관련 연구에 유용.

 


“GIT: A Generative Image-to-text Transformer for Vision and Language” (Wang et al., 2022)

 

📎 링크: https://arxiv.org/abs/2205.14100

생성형 Transformer 기반으로 이미지에서 캡션을 생성하는 모델.

이미지 → 텍스트 생성 흐름을 이해하기 좋

 


✅ 트랜스포머 기반 멀티모달


“Multimodal Learning with Transformers: A Survey”


📎 링크: https://arxiv.org/abs/2206.06488
- 총 100페이지가 넘는 대규모 서베이 논문
- Transformer 기반의 멀티모달 학습을 중심으로 정리한 최신 통합 리뷰

- Transformer가 modality 간 정보를 어떻게 통합(fuse)하고 이해하는지, 그 아키텍처를 아주 깊이 있게다룸

1. 멀티모달 Transformer 아키텍처 4가지 유형 정리
• Single-stream: 예시 - UNITER, ViLBERT
• Dual-stream: 예시 - LXMERT
• Encoder-decoder 구조: 예시 - Flamingo, GIT
• Multimodal Prompting 방식: 최근의 GPT-4, Flamingo류


2. 다양한 모달리티 조합:
• 텍스트+이미지, 비디오, 오디오, 센서 등
• 실시간 스트리밍 데이터와의 결합도 다룸


3. 학습 방법론 분류:
• Supervised, Self-supervised, Contrastive learning 등


4. 응용 분야:
• VQA, Captioning, Retrieval, Multimodal Generation, Robotics 등
5. 멀티모달에서 Transformer가 가지는 한계와 오픈 챌린지
• 예: modality imbalance, cross-modal attention의 비용 문제 등


어떤 모델을 써 볼까?

 

Gemma 3 Release - a google Collection

 

huggingface.co

 

clip

blip