본문 바로가기
  • 컴공생의 공부 일기
  • 공부보단 일기에 가까운 것 같은
  • 블로그
🤖 AI/AI

😛 Clip : Learning Transferable Visual Models From Natural Language Supervision : 4. Comparison to Human Performance - 9. Conclusion

by 정람지 2025. 4. 4.

😛 4. 인간 성능과의 비교 (Comparison to Human Performance)

 

🎯 실험 목적

 CLIP과 인간이 비슷한 상황에서 제로샷/퓨샷 학습 성능을 어떻게 보이는지 비교

 모델과 인간의 표본 효율(sample efficiency) 및 학습 방식의 차이를 분석

 

 

🧪 실험 설계

 실험 데이터셋: Oxford IIT Pets (총 3669장, 37개의 고양이/강아지 품종)

 5명의 인간 평가자에게 3가지 조건에서 분류 실험 수행:

 Zero-shot: 아무 예시도 없이 품종 분류

 1-shot: 품종별 예시 이미지 1장 제공

 2-shot: 품종별 예시 이미지 2장 제공

 CLIP은 동일한 조건에서 제로샷 분류기로 평가

 

 

📊 결과 요약 (정량)

조건 전체 정확도 “모름 제외” 정확도 다수결 정확도 “모름 제외” 다수결
인간 Zero-shot 53.7% 57.0% 69.7% 63.9%
CLIP Zero-shot 93.5% 93.5% 93.5% 93.5%
인간 1-shot 75.7% 80.3% 78.5% 81.2%
인간 2-shot 75.7% 85.0% 79.2% 86.1%

👉 CLIP은 인간보다 훨씬 뛰어난 제로샷 성능을 보임

 

 

🧠 해석 및 통찰

 인간은 불확실한 이미지에 대해 “모름”을 선택하며, 1개의 예시만으로도 정확한 개념 업데이트 가능

 이는 인간이 자신이 모르는 것을 아는(metatacognitive) 능력을 가진다는 증거

 반면, CLIP은 명시적인 예시 없이 텍스트를 통해 시각 개념을 직접 커뮤니케이션 가능

 

 

 

⚠️ 기계 vs 인간의 퓨샷 학습 차이

 인간은 1-shot만으로 큰 성능 향상을 보이나, CLIP은 상대적으로 향상 폭이 적음

 이는 인간은 사전 지식(prior knowledge)을 적극 활용하지만, CLIP은 이를 잘 사용하지 못하기 때문

 

 

🔧 개선 방향 제안

 CLIP의 퓨샷 성능을 개선하기 위해선, 제로샷 분류기를 사전 분포(prior)로 활용하여 퓨샷 모델에 통합하는 연구가 필요

예: 제로샷 분류기의 가중치를 L2 regularization 기반으로 퓨샷 초기값으로 사용

 

 


😛 5. Data Overlap Analysis (데이터 중복 분석)

 

 

🎯 문제의식

 CLIP은 웹에서 수집한 대규모 데이터셋으로 사전학습됨

 이로 인해 downstream 평가용 데이터셋이 의도치 않게 사전학습 데이터와 중복될 수 있음

 이는 일반화 능력 평가를 왜곡하고, 성능을 부풀릴 위험이 있음

 

 

🧪 분석 절차

1. 중복 탐지기(duplicate detector) 사용 → 각 벤치마크에서 학습셋과 유사한 이미지 탐색

2. 수동 검토 후 유사도 기준(threshold) 설정

3. 데이터셋을 Overlap / Clean / All 세트로 분할

 Overlap: 사전학습 데이터와 겹치는 샘플

 Clean: 중복 없음

 All: 전체 테스트셋

4. 세 그룹의 성능 차이를 통해 중복이 성능에 미치는 영향 분석

 

 

📊 결과 요약

중복률 중앙값 2.2%
평균 중복률 3.2%
정확도 차이 대부분 0.1% 미만
통계적으로 유의미한 성능 향상 35개 중 6개 데이터셋에서만 유의미
가장 큰 영향 Birdsnap: 12.1% 중복 → 성능 +0.6%
가장 많은 중복 Country211: 21.5% 중복 → 성능 +0.2%

대부분의 경우, 중복이 전체 성능에 미치는 영향은 매우 작음

중복이 많아도, 해당 텍스트 설명이 실제 태스크와 관련 없을 수 있음

(예: 지리 위치 분류인데 텍스트에 위치가 없음) 

 

 

⚠️ 분석의 잠재적 한계

 탐지기 한계: 4억 개 예시 전체를 다 확인하는 건 불가능

 분포 차이 문제:

 Overlap / Clean 간 난이도나 클래스 분포 차이가 정확도 차이에 영향을 줄 수 있음

 예: Kinetics-700에서는 Overlap 샘플이 실제로는 전환 화면(검은 화면)이 많아 정확도 급락

 

 

📌 결론

 의도치 않은 중복은 존재하나, 그 비율은 매우 낮고 성능 부풀림 영향은 제한적

 기존 대규모 사전학습 모델 분석 결과와도 일치함

(Mahajan et al., 2018; Kolesnikov et al., 2019)

 모델이 진짜로 일반화에 성공한 것이라고 볼 수 있는 근거 제공

 


😛 6. CLIP의 한계 (Limitations)

 

🔹 1. 세부 작업(task-specific) 성능 한계

 제로샷 CLIP은 평균적으로 괜찮은 성능을 보이지만, 세부적인 분류(fine-grained classification)에서는 성능 저조함

예: 자동차 모델, 꽃 품종, 항공기 변형 등

 복잡하고 추상적인 태스크에서도 성능 부족

예: 물체 개수 세기, 거리 추정, 의료 영상 분석, 교통표지 인식

 일반 사용자는 가능하지만 CLIP은 성능이 랜덤 수준인 경우도 있음

→ 즉, 많은 태스크에서 여전히 인간보다 취약 

 

 

🔹 2. 데이터 효율성 부족

 CLIP은 딥러닝의 데이터 비효율성 문제를 해결하지 못함

 단지 엄청난 양의 웹 이미지-텍스트 쌍으로 보완했을 뿐

 예: CLIP은 32 epoch 동안 128억 개 이미지를 학습

→ 1초에 1장씩 보여줘도 405년 걸림

 

 해결책으로는:

 Self-supervised learning

 Self-training 등의 접목 제안 

 

 

🔹 3. few-shot 학습 최적화 부족

 CLIP은 few-shot 설정에 최적화되어 있지 않음

 실험에선 linear classifier를 얹어 실험했는데,

→ 의외로 성능이 제로샷보다 낮게 나오는 현상 발생

 인간은 1개 예시만 봐도 급격히 학습하지만,

CLIP은 그렇지 않음 → 인간과 대조적 학습 구조

 

 

🔹 4. 자연어 분류기의 한계

 자연어로 분류기를 정의하는 것은 유연하지만, 복잡한 개념은 단순 텍스트로 표현하기 어려움

 또한, 제로샷 분류기는 지정된 라벨(텍스트 후보) 중 선택만 가능

 이미지 캡셔닝처럼 자유롭게 생성하지는 못함

 향후에는 대조 학습 + 생성 학습의 결합이 대안이 될 수 있음

 

 

🔹 5. 진정한 제로샷이 아님

 논문은 제로샷 전이 능력 평가에 초점 두었지만, 실제 개발 과정에서는 자주 검증 세트의 전체 성능을 참조

 즉, 완전한 제로샷 상황과는 다름 (semi-supervised 비판과 유사)

 

 

🔹 6. 평가 데이터셋의 편향

 주요 실험 결과는 기존 감독 데이터셋 27개에서 수집됨

→ CLIP 개발에 최적화(co-adapted)된 것일 가능성

 제로샷 전이를 위한 새로운 벤치마크 필요성 제시

 

 

🔹 7. 사회적 편향(social bias)

 인터넷 텍스트 기반 학습으로 인해 사회적 편향 내포

 성별, 인종 관련 문제 가능성 있음 (FairFace 실험 등)

 이는 기존 이미지 캡션 모델과 유사한 문제로, CLIP도 편향된 언어 데이터를 통해 잘못된 연관을 학습할 수 있음 

 


😛  7. Broader Impacts (광범위한 영향 분석)

 

🔹 1. 자유로운 분류기 생성 능력의 사회적 영향

 CLIP은 제로샷 분류를 통해 사용자가 임의의 분류기(“roll your own classifier”)를 만들 수 있음

 예: 고양이/개를 분류하거나, 쇼핑몰 CCTV로 도둑을 식별하는 것까지 가능

 후자의 경우 사회적, 윤리적 파장이 크며 AI의 적합성을 다시 검토해야 할 필요

 이 능력은 GPT-3처럼 테스트를 통해서만 그 성능의 범위를 알 수 있음

 광범위한 응용 가능성과 동시에 책임 있는 사용 필요

 

 

🔹 2. 모델 활용 범위와 가능성

 텍스트-이미지 검색, 이미지 검색, OCR, 행동 인식, 감정 인식, 위치 추정 등

다양한 태스크에서 강력한 활용 가능성 있음

 특히, CLIP은 학습 없이도 애플리케이션을 커스터마이징할 수 있어

→ 향후 새로운 킬러 앱 가능성 존재

 하지만 이런 유연성은 동시에 악용 가능성도 높임

 

 

🔹 3. 감시(surveillance) 분야 활용 논의

 CLIP은 감시용으로 설계되지 않았지만,

감시 영상이나 정체성 인식(celebrity identification)에 일부 성능을 보임

예시: VIRAT, Varadarajan 데이터셋 사용해 저해상도 CCTV 이미지 실험

 “주차장인지 아닌지”, “사람이 구석에 있는지” 등의 coarse/fine classification 시도

 CLIP은 이런 태스크에서 비전문가도 손쉽게 적용 가능하다는 점에서 위험 요소 있음

 사회적 민감성 감안한 규범적 논의가 필요

 

 

🔹 4. 편향과 악용 우려

 CLIP은 웹 기반 텍스트를 사용하기 때문에 성별, 인종 등 사회적 편향을 학습

 FairFace 벤치마크 및 탐색적 실험 수행

 CLIP이 자동화된 레이블링 구조를 갖는 만큼,

모델이 학습한 편향은 새로운 태스크에서도 그대로 드러날 수 있음

 

 

🔹 5. 향후 과제 및 커뮤니티 제안

 CLIP 같은 범용 모델에 대해선 다음이 필요함:

1. 응용 분야별 유익한 활용처 조기 식별

2. 정책적 개입이 필요한 민감한 태스크 분류

3. 편향 정량화 및 수정 방향 연구

4. 정형화된 테스트 수트 구성

5. 실패 모드 탐색

 

CLIP이 가진 능력과 한계를 더 잘 이해하고, 사회적으로 유익한 방향으로 유도하는 것이 핵심

 


😛  8. Related Work 

 

🔹 1. 자연어 감독의 범위

 자연어를 감독 신호로 사용하는 모든 모델은 이 영역에 포함됨

예:

 분포 의미론(distributional semantics): 토픽 모델, word2vec, sentence embedding 등

 언어 모델(language models): GPT, BERT 등

 자연어 감독은 단순한 라벨 대신 설명, 피드백, 지시 등을 통해 학습을 유도하는 접근으로 확장됨

예: ExpBERT (자연어 설명을 임베딩 특성으로 사용) 

 

 

🔹 2. 대화 기반 학습

 인간처럼 인터랙션을 통해 학습하는 연구들도 있음

 예: dialog-based learning, semantic parsing을 통한 텍스트→라벨 변환 등 

 자연어 설명을 기능(feature)이나 학습 신호로 사용하여 지식 전이, 분류 정확도 향상 시도

 

 

🔹 3. 비언어 도메인에서의 자연어 감독

 자연어를 언어 이외의 도메인(영상, 이미지 등)에 적용한 연구들:

 영상 이벤트 이해(Ramanathan et al., 2013)

 이미지 검색/분류에서의 자연어 활용 (1999~2009)

 세분화 분류(Fine-grained classification) 개선 (예: 조류 분류) 

 

 

🔹 4. 강화학습 + 자연어

 자연어 설명을 강화학습 환경에 적용하여 제로샷 능력 향상 시도

 예: Hill et al., 2019 – 대화 기반 피드백을 통한 task 수행 능력 향상

 

 

🔹 5. 텍스트-이미지 검색과 멀티모달 임베딩

 초기 연구: 이미지 검색 목적의 자연어 사용 (Mori et al., 1999)

 이후 흐름:

 joint embedding 공간 학습으로 전환

 Kernel CCA, ranking objective, Frome et al. (2013), Karpathy et al. (2014) 등 

 

 

🔹 6. 웹 기반 데이터 학습 (Webly-Supervised Learning)

 이미지 검색 엔진의 query를 라벨처럼 사용하는 학습법

 CLIP도 이와 유사하지만, CLIP은 전체 텍스트 설명을 학습에 사용함

 Divvala et al. (2014)와 비슷한 목적 추구: “everything about anything” 

 

 

🔹 7. 비전-언어 공동 학습 모델과의 차이점

 기존 대표 모델들: VisualBERT, LXMERT, UNITER 

 구조: 이미지 피처 + 객체 검출기 + BERT 기반 텍스트 → joint attention

 태스크: VQA, Visual Entailment, Visual Commonsense 등

 CLIP의 차별점:

 멀티모달 attention 없이, 이미지와 텍스트 임베딩을 독립적으로 학습

 유일한 상호작용은 dot product를 통한 유사도 계산

 

 

→ CLIP은 범용 비전 모델 학습에 집중하며, 복잡한 멀티모달 파이프라인 없이 높은 성능 확보

 

자연어 감독 단순 라벨이 아닌, 설명·피드백 등 언어적 감독 신호로 학습 유도
대화 기반 학습 인터랙션 중심 자연어 학습 구조
타 도메인 적용 영상, 세분화 분류 등에서 자연어 설명 활용
텍스트-이미지 학습 초기엔 검색 → 점차 멀티모달 임베딩으로 발전
웹 기반 학습 noisy label을 활용한 대규모 학습, CLIP과 연결
비전-언어 공동 학습 CLIP은 joint attention 없이 임베딩 정렬 방식 사용

 


😛  9. Conclusion 

 

🎯 핵심 목표

 자연어 감독 기반의 웹 규모 사전학습이 NLP에서 성공했던 방식을, 컴퓨터 비전으로 이식할 수 있는가?라는 질문을 출발점으로 삼음

 

 

🔍 주요 발견

 이 접근은 컴퓨터 비전 분야에서도 유사한 현상을 만들어낼 수 있음

 대규모 이미지-텍스트 쌍 사전학습을 통해 다양한 작업을 자연스럽게 학습

 자연어 프롬프트만으로 제로샷 전이 가능

 CLIP은 사전학습 과정에서 다양한 시각 태스크 수행법 자체를 학습

→ 학습된 표현은 다양한 데이터셋에 텍스트 프롬프트만으로 적용 가능

 

 

📊 성능 요약

 충분한 스케일(데이터 + 모델 크기)에서는 태스크 특화된 감독 학습 모델과 비교해도 경쟁 가능한 성능

 단, 여전히 개선의 여지는 많음