👅 6. Fusion
멀티모달 퓨전(multimodal fusion)은 멀티모달 머신러닝 분야의 초기 주제 중 하나로,
기존 리뷰에서는 주로 초기(early), 후기(late), 하이브리드(hybrid) 퓨전 접근 방식에 중점
기술적으로 멀티모달 퓨전은 여러 모달리티로부터 정보를 통합하여 결과를 예측하는 것을 의미
이 결과는 예를 들어 감정(기쁨 vs 슬픔) 같은 클래스 분류이거나, 감정의 정도 같은 연속적인 값(회귀)일 수 있음
멀티모달 퓨전의 세 가지 주요 장점
1. 강인한 예측(Robustness): 동일한 현상을 관찰한 여러 모달리티의 정보를 이용해 더 견고한 예측 가능.
2. 보완 정보(Complementarity): 하나의 모달리티만으로는 볼 수 없는 정보를 서로 보완해줌.
3. 결측 데이터 대응: 특정 모달리티가 결측된 상황에서도 작동 가능함. 예: 사람이 말하지 않을 때는 시각 정보만으로 감정 인식 가능.
😛 6.1 모델 비의존적 접근 방식 (Model-agnostic approaches)
초기 퓨전 (Early Fusion):
피처를 추출한 직후 결합함.
대표적으로 피처 벡터를 단순히 이어붙이는(concatenation) 방식.
상호작용 학습 가능, 단일 모델만 필요.
후기 퓨전 (Late Fusion):
각 모달리티의 예측 결과(결정값)를 조합함.
예: 평균, 가중합, 투표, 학습 기반 결합.
훈련 시 병렬 데이터가 없어도 되고, 결측 모달리티에 강함.
하이브리드 퓨전 (Hybrid Fusion):
초기와 후기 퓨전의 장점을 결합한 방식.
예: 초기 퓨전과 단일 모달리티 예측기를 결합.
이러한 접근법은 대부분의 단일 모달 분류기/회귀기와 함께 사용할 수 있다는 장점이 있음.
😛 6.2 모델 기반 접근 방식 (Model-based approaches)
이 접근법은 멀티모달 데이터를 다루도록 특별히 설계된 방식들로, 다음 세 가지로 구분됨:
1) 커널 기반 방법 (Kernel-based methods)
• 다중 커널 학습(MKL): 각 모달리티에 다른 커널을 적용해 SVM에서 통합.
• 장점: 이질적인 데이터에도 잘 작동하고, 최적화가 쉬우며 회귀/분류 모두 가능.
• 단점: 테스트 시 학습 데이터를 참조해야 해 느리고 메모리 사용량 큼.
2) 그래픽 모델 (Graphical Models)
• 생성 모델: 결합 확률 모델링 (예: Coupled HMM, Dynamic Bayesian Network)
• 판별 모델: 조건부 확률 모델링 (예: Conditional Random Field, CRF)
• 장점: 시공간 구조를 모델링하기 쉽고, 해석이 용이함.
• 활용 예: 음성-영상 인식(AVSR), 감정 인식, 미팅 분석 등
3) 신경망 (Neural Networks)
• 가장 활발히 연구되는 방식으로, 표현 학습과 퓨전이 동시에 일어남.
• 예시: 이미지와 텍스트를 동시에 받아 질문에 대답하는 VQA(Visual QA), 감정 분석, 제스처 인식, 비디오 설명 등.
• 장점: 성능이 뛰어나고, 엔드 투 엔드 학습 가능
• 단점: 많은 데이터가 필요하고, 과적합 또는 훈련 어려움 존재
이 장은 멀티모달 퓨전이 단순히 피처를 합치는 것을 넘어, 각 모달리티의 특성을 이해하고 효과적으로 통합할 수 있는 다양한 접근법을 필요로 한다는 것을 강조
👅 7. Co-learning
Co-learning: 지식 전이 및 공유
🔍 정의
Co-learning은 하나의 모달리티에서 얻은 정보를 다른 모달리티의 학습에 활용하는 것을 의미
→ 예: 텍스트 모달리티에서 학습된 지식을 영상이나 오디오에 활용
→ 대표 기술: co-training, zero-shot learning, conceptual grounding
🎯 왜 중요한가?
• 데이터 불균형이 흔한 멀티모달 환경에서, 예를 들어 어떤 모달리티는 풍부한 라벨을 가지고 있고, 다른 모달리티는 거의 없는 상황에 유용함.
• 낮은 리소스 모달리티(low-resource modality) 문제 해결에 핵심적.
📦 Co-learning 주요 접근 방식
✅ 1. Co-training
• 두 모달리티의 예측기가 서로의 고신뢰(high-confidence) 예측 결과를 통해 학습.
• 예: 텍스트와 이미지 각각 예측 → 서로의 예측 결과를 pseudo-label로 활용
✅ 2. Conceptual Grounding
• 언어 모달리티에서의 개념을 다른 모달리티(예: 이미지)로 연결.
• 예: “개(dog)“라는 단어를 이미지 모달리티의 개 사진들과 연결해 의미를 학습
✅ 3. Zero-shot Learning (ZSL)
• 본 적 없는 클래스를 다룰 수 있도록 학습.
• 예: “얼룩말” 이미지를 본 적 없어도, “말과 흑백 줄무늬”라는 설명을 통해 인식 가능
🔁 Co-learning 학습 흐름 예시
1. 하나의 모달리티(텍스트)로부터 의미 정보 또는 feature embedding을 학습
2. 이를 기반으로 다른 모달리티(이미지)의 표현을 지도하거나 보정
3. 이렇게 양쪽 모달리티가 서로를 향상시킴
💡 대표 응용 분야
• 저자원 환경 감정 인식 (오디오가 결손일 때 얼굴로 추정)
• 이미지 설명 생성 (텍스트-이미지 연관)
• 음성 합성 (텍스트에서의 구조적 정보를 활용)
😛 7.1 Parallel Data 기반 Co-learning
핵심 아이디어:
동일한 인스턴스를 공유하는 두 모달리티 (예: 오디오 ↔ 비디오)를 사용해 학습.
🧠 주요 기법
• Co-training:
• 서로 다른 모달리티의 약한 예측기들이 서로에게 라벨링을 해주며 성능 향상.
• 예: 웹페이지와 하이퍼링크 간 예측 보완
• Representation Learning:
• 하나의 모달리티에서 얻은 표현을 다른 모달리티로 전이.
• 예: 오디오 기반 speech recognition 모델의 정보를 영상 기반 lip-reading 모델에 전이
장점:
• 데이터 간 정렬(parallel)이 잘 되어 있으면 매우 효과적
• 테스트 시 하나의 모달리티만 사용 가능
단점:
• 초기 라벨 부족 시 성능 저하 가능
• modality 간 신뢰도 차이 문제
😛7.2 Non-parallel Data 기반 Co-learning
핵심 아이디어:
직접 연결된 인스턴스 없이, 공통 개념(category/semantic)으로 연결된 모달리티를 활용.
🧠 주요 기법
• Transfer Learning:
• 풍부한 모달리티에서 학습한 표현을 부족한 모달리티에 적용
• 예: 텍스트(word2vec)로 학습한 의미 정보를 이미지 CNN에 전이
• Conceptual Grounding:
• 개념을 언어가 아닌 시각, 청각, 후각 등 감각 기반으로 학습
• 예: “개”라는 단어를 실제 개 이미지와 연결
• 감각 기반 표현이 언어적 의미보다 더 실제적일 수 있음
장점:
• 서로 다른 도메인의 대규모 데이터 활용 가능
• 테스트 시 하나의 모달리티만 있어도 유용
단점:
• 개념 정렬이 어려움, 연관성 없는 경우 성능 하락
😛7.3 Hybrid Data 기반 Co-learning
핵심 아이디어:
두 비병렬 모달리티를 공통 모달리티(pivot modality) 또는 중간 데이터셋을 통해 연결.
🧠 주요 사례
• Bridge Correlational Neural Network:
• 언어 간 번역 문제에서 이미지가 중간 다리 역할 수행 (예: 영어–중국어 간 번역에서 이미지 사용)
• 멀티태스크/멀티도메인 학습:
• 라벨이 적은 태스크에 라벨이 풍부한 유사 도메인을 활용
장점:
• 직접 병렬 데이터가 없어도 다양한 모달리티 통합 가능
• 활용성 매우 넓음 (멀티언어, 멀티모달, 도메인 간 학습)
단점:
• 중간 모달리티 선택과 정렬의 어려움
😛 7.4 종합 정리 (Discussion)
• Co-learning은 퓨전(fusion)이나 정렬(alignment)과 달리, 훈련 중에만 보조 모달리티를 사용함.
다양한 형태로 응용됨:
• 시각 인식 (visual classification)
• 동작 인식 (action recognition)
• 음성-영상 인식 (AVSR)
• 개념 유사도 추정 (semantic similarity)
'Club|Project > 졸업 프로젝트 연구 트랙' 카테고리의 다른 글
🌌 은하 합병 여부 분류를 위한 멀티모달 학습 전략 수립 (0) | 2025.04.07 |
---|---|
🌰 컴퓨터공학과 이형준 담당교수님 면담 (0) | 2025.04.03 |
🔭 서울대학교 물리천문학부 Sascha Trippe 교수님 연구 면담 (0) | 2025.04.03 |
💥 Zoobot 모델 - 은하 병합 파인튜닝 테스트 : 데이터 (2) | 2025.04.02 |
🎯 Galaxy mergers 연구 알아보기 (Zoobot 모델 / 데이터 ) (0) | 2025.04.02 |