👅 트랜스포머 멀티 모달 러닝 서베이 [Multimodal Learning With Transformers: A Survey] 논문 리딩 (1)

0. Abstract - 3. TRANSFORMERS

만들었땅

👅 논문 읽기

👅 논문 정리하기

😛0. Abstract

Transformer 기반 멀티모달 학습은 인공지능 연구 분야에서 뜨거운 주제

(1) 멀티모달 학습, Transformer 생태계, 멀티모달 빅데이터 시대에 대한 배경 설명

(2) 기하학적 위상학적 관점에서 바라본 Vanilla Transformer, Vision Transformer, 멀티모달 Transformer에 대한 체계적 리뷰

(3) 멀티모달 사전학습과 특정 멀티모달 과제라는 두 가지 주요 패러다임에 따른 멀티모달 Transformer 애플리케이션 리뷰

(4) 다양한 멀티모달 Transformer 모델과 애플리케이션이 공유하는 공통적인 도전 과제와 설계 요약

(5) 커뮤니티를 위한 오픈 문제들과 잠재적인 연구 방향에 대한 논의

😛1. INTRODUCTION

멀티모달 AI의 목표
- 인간처럼 시각, 청각, 언어 등 다양한 감각 정보를 동시에 해석하고 추론하는 AI 시스템을 만드는 것이 목적.
- 예: 이미지와 텍스트를 함께 이해하여 “물에서 노는 코끼리”를 인식.
멀티모달 학습(MML)의 정의
- 여러 모달리티의 데이터를 통합적으로 처리하고 관련짓는 AI 학습 방법.
- 각 모달리티는 고유한 통계적 특성을 가지므로 이를 조합해 더 깊은 이해를 도출.
Transformer의 역할과 장점
- Transformer는 모달리티에 특화된 구조 없이도 다양한 모달리티를 처리 가능.
- Self-Attention을 통해 입력 시퀀스를 그래프처럼 연결된 구조로 모델링.
- 입력에 모달리티 라벨, 순서 정보 등을 부여함으로써 아키텍처 수정 없이 멀티모달 입력을 다룸.
연구 필요성
- 최근 Transformer를 기반으로 한 멀티모달 학습 연구가 빠르게 확산.
- 하지만 연구 결과가 다양한 분야에 흩어져 있어 전반적인 구조와 트렌드를 파악하기 어려움.
- 이에 따라 전체적인 조망과 체계적 정리를 제공하는 서베이가 필요.
논문의 목적과 기여
- 애플리케이션 관점과 도전 과제 관점 두 축으로 분류 체계를 제시.
- 각 연구를 수학적 관점과 응용적 관점 모두에서 조망.
- 프롬프트 모델링 기반 분류 문제를 멀티모달 학습의 특수 사례로 포함시켜 연구 범위 확장.

😛 2. BACKGROUND

1️⃣ 멀티모달 학습 (2.1 Multimodal Learning)

멀티모달 학습(MML)은 여러 모달리티(시각, 청각, 언어 등) 데이터를 통합적으로 학습하는 AI 접근 방식.
인간의 세상 인지는 멀티모달 기반 → AI도 여러 센서 (카메라, 라이다, 레이더 등)로 데이터를 종합해야 효과적.
다양한 응용 분야 존재:
- 멀티모달 감정 인식
- 멀티모달 이벤트 이해
- 수화 번역, 입술 읽기
- 비전-언어 내비게이션
- 의료 AI, 감시 AI 등.
딥러닝과 Transformer 등장으로 MML 발전에 큰 도약.
대형 언어모델과 멀티모달 파생 모델의 성공 → Transformer의 멀티모달 잠재력 부각.

2️⃣ Transformer의 역사와 이정표 (2.2 Transformers: a Brief History and Milestones)

Vanilla Transformer → NLP용으로 제안, Self-Attention으로 혁신.
BERT, GPT, BART, XLNet 등 파생 모델 등장.
NLP 성공 후 비전 분야로 확장:
- 초기: CNN feature + Transformer encoder
- Vision Transformer (ViT): Transformer를 이미지에 직접 적용 → 검출, 세그멘테이션 등 다양한 비전 과제에 적용.
VideoBERT → Transformer를 멀티모달 과제로 확장한 첫 사례.
이후 다양한 멀티모달 Transformer 사전학습 모델 등장:
- ViLBERT, LXMERT, VisualBERT, UNITER, Oscar 등.
CLIP → 멀티모달 사전학습으로 분류 문제를 검색 문제로 전환 → 제로샷 학습 가능케 함 → 새로운 이정표.

3️⃣ 멀티모달 빅데이터 (2.3 Multimodal Big Data)

최근 대규모 멀티모달 데이터셋 다수 등장:
- Conceptual Captions, COCO, VQA, Visual Genome, LAION-400M 등.
트렌드:
1. 데이터 규모 증가 (수백만~수억 샘플)
2. 모달리티 다양화 (360도 비디오, 3D 모션, 스케치 등)
3. 응용 시나리오 확장 (자율주행, 금융, 내비게이션 등)
4. 과제 난이도 상승 (은유 이해, 혐오 밈 탐지 등)
5. 교육용 비디오 인기 (요리, 단계별 작업 비디오 → 강력한 사전학습 과제 제공)
Transformer는 데이터에 많이 의존 → 대규모 멀티모달 빅데이터가 Transformer 기반 MML 성공의 열쇠.
빅데이터는 제로샷 학습 능력을 가능하게 하는 기반 제공.

😛3. TRANSFORMERS

✅ 3.1 Vanilla Transformer

인코더-디코더 구조 기반.
각 블록은 Multi-Head Self-Attention (MHSA) + **Feed-Forward Network (FFN)**으로 구성.
입력은 토큰화된 시퀀스 + 위치 임베딩으로 표현.
Residual Connection과 Layer Normalization 사용 → 안정적 학습 지원.

📝 핵심 메커니즘:

Self-Attention → 입력 토큰 간 전역적 의존성 학습.
Multi-Head → 여러 표현 공간에 주의를 분산해 정보 다양성 확보.

✅ 3.2 Vision Transformer (ViT)

이미지를 작은 패치 단위 시퀀스로 변환 후 Transformer에 입력.
각 패치는 선형 임베딩 + 위치 임베딩 적용.
[CLS] 분류 토큰을 앞에 추가 → 전체 이미지의 글로벌 피처 표현.
CNN처럼 지역적 필터 대신 전역적 관계 모델링.

📝 의의:

CNN 없이 pure Transformer로 이미지 처리 가능.
입력 시퀀스를 일반적인 Transformer 입력과 동일하게 처리 → 멀티모달 확장 용이.

✅ 3.3 Multimodal Transformers

멀티모달 입력을 다루는 Transformer 설계는:

입력 단계 (토큰화, 임베딩)
Self-Attention 변형
네트워크 아키텍처
세 가지 요소로 나눠 설명.

🔍 Self-Attention 변형 5가지 방식:

Early Summation: 토큰 임베딩을 가중 합산.
Early Concatenation: 시퀀스를 단순히 연결.
Hierarchical Attention (multi → one): 모달리티별 인코딩 후 결합.
Hierarchical Attention (one → multi): 통합 인코딩 후 모달리티별 분리.
Cross-Attention: 서로 다른 모달리티 Query로 Attention 연산.

🔍 네트워크 아키텍처 3가지 분류:

싱글 스트림: 하나의 시퀀스로 합쳐 Transformer 처리 (ex. VisualBERT).
멀티 스트림: 모달리티별 독립 인코더 (ex. ViLBERT, LXMERT).
하이브리드 스트림: 싱글과 멀티 결합 구조 (ex. InterBERT).

✅ 핵심 메시지

Transformer는 모달리티-중립적 구조 덕분에, 입력 데이터를 그래프 기반 시퀀스로 자유롭게 다루고 다양한 self-attention 변형과 스트림 구조로 멀티모달 통합이 가능.
설계 시 입력 단계, self-attention 방식, 아키텍처 간 trade-off 고려 필요.

저작자표시 (새창열림)

'Club|Project > 졸업 연구 | 멀티모달 AI를 이용한 은하 병합 단계 분류' 카테고리의 다른 글

🔭 LSST with AI : day 1(AM) (4)	2025.05.13
👅 트랜스포머 멀티 모달 러닝 서베이 [Multimodal Learning With Transformers: A Survey] 논문 리딩 (2) (0)	2025.05.04
졸프 현황 끄적끼 : SpaceAI 통과! / 졸프용 계정 관리 / 에그타르트의맛 (1)	2025.04.28
💗 서울대 김이곤/이가인 연구원님 방문 면담 : TNG data 사용 & 모델 아키텍처 자문 (2)	2025.04.26
👨🏻‍🚀 IllustrisTNG 지도 내용 복습 정리 (0)	2025.04.26

은체공부

👅 트랜스포머 멀티 모달 러닝 서베이 [Multimodal Learning With Transformers: A Survey] 논문 리딩 (1)

0. Abstract - 3. TRANSFORMERS

👅 논문 읽기

👅 논문 정리하기

😛0. Abstract

😛1. INTRODUCTION

😛 2. BACKGROUND

😛3. TRANSFORMERS

'Club|Project > 졸업 연구 | 멀티모달 AI를 이용한 은하 병합 단계 분류' 카테고리의 다른 글

티스토리툴바

👅 트랜스포머 멀티 모달 러닝 서베이 [Multimodal Learning With Transformers: A Survey] 논문 리딩 (1)

0. Abstract - 3. TRANSFORMERS

👅 논문 읽기

👅 논문 정리하기

😛0. Abstract

😛1. INTRODUCTION

😛 2. BACKGROUND

😛3. TRANSFORMERS

'Club|Project > 졸업 연구 | 멀티모달 AI를 이용한 은하 병합 단계 분류' 카테고리의 다른 글

관련글

티스토리툴바