본문 바로가기
  • 컴공생의 공부 일기
  • 공부보단 일기에 가까운 것 같은
  • 블로그
Club|Project/졸업 프로젝트 연구 트랙

👅 멀티 모달 기초 [Multimodal Machine Learning: A Survey and Taxonomy] 논문 리딩 - 6. Fusion / 7. Co-learning

by 정람지 2025. 4. 3.

 

👅 6. Fusion

 

멀티모달 퓨전(multimodal fusion)은 멀티모달 머신러닝 분야의 초기 주제 중 하나로,

기존 리뷰에서는 주로 초기(early), 후기(late), 하이브리드(hybrid) 퓨전 접근 방식에 중점

 

기술적으로 멀티모달 퓨전은 여러 모달리티로부터 정보를 통합하여 결과를 예측하는 것을 의미

이 결과는 예를 들어 감정(기쁨 vs 슬픔) 같은 클래스 분류이거나, 감정의 정도 같은 연속적인 값(회귀)일 수 있음

 

 

 

멀티모달 퓨전의 세 가지 주요 장점

1. 강인한 예측(Robustness): 동일한 현상을 관찰한 여러 모달리티의 정보를 이용해 더 견고한 예측 가능.

2. 보완 정보(Complementarity): 하나의 모달리티만으로는 볼 수 없는 정보를 서로 보완해줌.

3. 결측 데이터 대응: 특정 모달리티가 결측된 상황에서도 작동 가능함. 예: 사람이 말하지 않을 때는 시각 정보만으로 감정 인식 가능.


😛 6.1 모델 비의존적 접근 방식 (Model-agnostic approaches)

초기 퓨전 (Early Fusion):

피처를 추출한 직후 결합함.

대표적으로 피처 벡터를 단순히 이어붙이는(concatenation) 방식.

상호작용 학습 가능, 단일 모델만 필요.

 

후기 퓨전 (Late Fusion):

각 모달리티의 예측 결과(결정값)를 조합함.

예: 평균, 가중합, 투표, 학습 기반 결합.

훈련 시 병렬 데이터가 없어도 되고, 결측 모달리티에 강함.

 

하이브리드 퓨전 (Hybrid Fusion):

초기와 후기 퓨전의 장점을 결합한 방식.

예: 초기 퓨전과 단일 모달리티 예측기를 결합.

 

이러한 접근법은 대부분의 단일 모달 분류기/회귀기와 함께 사용할 수 있다는 장점이 있음.


😛 6.2 모델 기반 접근 방식 (Model-based approaches)

이 접근법은 멀티모달 데이터를 다루도록 특별히 설계된 방식들로, 다음 세 가지로 구분됨:

 

1) 커널 기반 방법 (Kernel-based methods)

 다중 커널 학습(MKL): 각 모달리티에 다른 커널을 적용해 SVM에서 통합.

 장점: 이질적인 데이터에도 잘 작동하고, 최적화가 쉬우며 회귀/분류 모두 가능.

 단점: 테스트 시 학습 데이터를 참조해야 해 느리고 메모리 사용량 큼.

 

2) 그래픽 모델 (Graphical Models)

 생성 모델: 결합 확률 모델링 (예: Coupled HMM, Dynamic Bayesian Network)

 판별 모델: 조건부 확률 모델링 (예: Conditional Random Field, CRF)

 장점: 시공간 구조를 모델링하기 쉽고, 해석이 용이함.

 활용 예: 음성-영상 인식(AVSR), 감정 인식, 미팅 분석 등

 

3) 신경망 (Neural Networks)

 가장 활발히 연구되는 방식으로, 표현 학습과 퓨전이 동시에 일어남.

 예시: 이미지와 텍스트를 동시에 받아 질문에 대답하는 VQA(Visual QA), 감정 분석, 제스처 인식, 비디오 설명 등.

 장점: 성능이 뛰어나고, 엔드 투 엔드 학습 가능

 단점: 많은 데이터가 필요하고, 과적합 또는 훈련 어려움 존재

 


이 장은 멀티모달 퓨전이 단순히 피처를 합치는 것을 넘어, 각 모달리티의 특성을 이해하고 효과적으로 통합할 수 있는 다양한 접근법을 필요로 한다는 것을 강조

 

 


 

👅 7.  Co-learning

 

 Co-learning: 지식 전이 및 공유

 

🔍 정의

Co-learning은 하나의 모달리티에서 얻은 정보를 다른 모달리티의 학습에 활용하는 것을 의미

→ 예: 텍스트 모달리티에서 학습된 지식을 영상이나 오디오에 활용

→ 대표 기술: co-training, zero-shot learning, conceptual grounding

 

 

🎯 왜 중요한가?

 데이터 불균형이 흔한 멀티모달 환경에서, 예를 들어 어떤 모달리티는 풍부한 라벨을 가지고 있고, 다른 모달리티는 거의 없는 상황에 유용함.

 낮은 리소스 모달리티(low-resource modality) 문제 해결에 핵심적.

 

 

 

📦 Co-learning 주요 접근 방식

 

✅ 1. Co-training

 두 모달리티의 예측기가 서로의 고신뢰(high-confidence) 예측 결과를 통해 학습.

 예: 텍스트와 이미지 각각 예측 → 서로의 예측 결과를 pseudo-label로 활용

 

✅ 2. Conceptual Grounding

 언어 모달리티에서의 개념을 다른 모달리티(예: 이미지)로 연결.

 예: “개(dog)“라는 단어를 이미지 모달리티의 개 사진들과 연결해 의미를 학습

 

✅ 3. Zero-shot Learning (ZSL)

 본 적 없는 클래스를 다룰 수 있도록 학습.

 예: “얼룩말” 이미지를 본 적 없어도, “말과 흑백 줄무늬”라는 설명을 통해 인식 가능

 

 

 

🔁 Co-learning 학습 흐름 예시

1. 하나의 모달리티(텍스트)로부터 의미 정보 또는 feature embedding을 학습

2. 이를 기반으로 다른 모달리티(이미지)의 표현을 지도하거나 보정

3. 이렇게 양쪽 모달리티가 서로를 향상시킴

 

💡 대표 응용 분야

 저자원 환경 감정 인식 (오디오가 결손일 때 얼굴로 추정)

 이미지 설명 생성 (텍스트-이미지 연관)

 음성 합성 (텍스트에서의 구조적 정보를 활용)


😛 7.1 Parallel Data 기반 Co-learning

 

핵심 아이디어:

동일한 인스턴스를 공유하는 두 모달리티 (예: 오디오 ↔ 비디오)를 사용해 학습.

 

🧠 주요 기법

 Co-training:

 서로 다른 모달리티의 약한 예측기들이 서로에게 라벨링을 해주며 성능 향상.

 예: 웹페이지와 하이퍼링크 간 예측 보완

 Representation Learning:

 하나의 모달리티에서 얻은 표현을 다른 모달리티로 전이.

 예: 오디오 기반 speech recognition 모델의 정보를 영상 기반 lip-reading 모델에 전이

 

장점:

 데이터 간 정렬(parallel)이 잘 되어 있으면 매우 효과적

 테스트 시 하나의 모달리티만 사용 가능

 

단점:

 초기 라벨 부족 시 성능 저하 가능

 modality 간 신뢰도 차이 문제

 


😛7.2 Non-parallel Data 기반 Co-learning

 

핵심 아이디어:

직접 연결된 인스턴스 없이, 공통 개념(category/semantic)으로 연결된 모달리티를 활용.

 

🧠 주요 기법

 Transfer Learning:

 풍부한 모달리티에서 학습한 표현을 부족한 모달리티에 적용

 예: 텍스트(word2vec)로 학습한 의미 정보를 이미지 CNN에 전이

 Conceptual Grounding:

 개념을 언어가 아닌 시각, 청각, 후각 등 감각 기반으로 학습

 예: “개”라는 단어를 실제 개 이미지와 연결

 감각 기반 표현이 언어적 의미보다 더 실제적일 수 있음

 

장점:

 서로 다른 도메인의 대규모 데이터 활용 가능

 테스트 시 하나의 모달리티만 있어도 유용

 

단점:

 개념 정렬이 어려움, 연관성 없는 경우 성능 하락

 


 

😛7.3 Hybrid Data 기반 Co-learning

 

핵심 아이디어:

두 비병렬 모달리티를 공통 모달리티(pivot modality) 또는 중간 데이터셋을 통해 연결.

 

🧠 주요 사례

 Bridge Correlational Neural Network:

 언어 간 번역 문제에서 이미지가 중간 다리 역할 수행 (예: 영어–중국어 간 번역에서 이미지 사용)

 멀티태스크/멀티도메인 학습:

 라벨이 적은 태스크에 라벨이 풍부한 유사 도메인을 활용

 

장점:

 직접 병렬 데이터가 없어도 다양한 모달리티 통합 가능

 활용성 매우 넓음 (멀티언어, 멀티모달, 도메인 간 학습)

 

단점:

 중간 모달리티 선택과 정렬의 어려움

 


 

😛 7.4 종합 정리 (Discussion)

 

 Co-learning은 퓨전(fusion)이나 정렬(alignment)과 달리, 훈련 중에만 보조 모달리티를 사용함.

 

다양한 형태로 응용됨:

 시각 인식 (visual classification)

 동작 인식 (action recognition)

 음성-영상 인식 (AVSR)

 개념 유사도 추정 (semantic similarity)