😛 Clip : Learning Transferable Visual Models From Natural Language Supervision : 4. Comparison to Human Performance

😛 4. 인간 성능과의 비교 (Comparison to Human Performance)

🎯 실험 목적

• CLIP과 인간이 비슷한 상황에서 제로샷/퓨샷 학습 성능을 어떻게 보이는지 비교

• 모델과 인간의 표본 효율(sample efficiency) 및 학습 방식의 차이를 분석

🧪 실험 설계

• 실험 데이터셋: Oxford IIT Pets (총 3669장, 37개의 고양이/강아지 품종)

• 5명의 인간 평가자에게 3가지 조건에서 분류 실험 수행:

• Zero-shot: 아무 예시도 없이 품종 분류

• 1-shot: 품종별 예시 이미지 1장 제공

• 2-shot: 품종별 예시 이미지 2장 제공

• CLIP은 동일한 조건에서 제로샷 분류기로 평가

📊 결과 요약 (정량)

조건	전체 정확도	“모름 제외” 정확도	다수결 정확도	“모름 제외” 다수결
인간 Zero-shot	53.7%	57.0%	69.7%	63.9%
CLIP Zero-shot	93.5%	93.5%	93.5%	93.5%
인간 1-shot	75.7%	80.3%	78.5%	81.2%
인간 2-shot	75.7%	85.0%	79.2%	86.1%

👉 CLIP은 인간보다 훨씬 뛰어난 제로샷 성능을 보임

🧠 해석 및 통찰

• 인간은 불확실한 이미지에 대해 “모름”을 선택하며, 1개의 예시만으로도 정확한 개념 업데이트 가능

• 이는 인간이 자신이 모르는 것을 아는(metatacognitive) 능력을 가진다는 증거

• 반면, CLIP은 명시적인 예시 없이 텍스트를 통해 시각 개념을 직접 커뮤니케이션 가능

⚠️ 기계 vs 인간의 퓨샷 학습 차이

• 인간은 1-shot만으로 큰 성능 향상을 보이나, CLIP은 상대적으로 향상 폭이 적음

• 이는 인간은 사전 지식(prior knowledge)을 적극 활용하지만, CLIP은 이를 잘 사용하지 못하기 때문

🔧 개선 방향 제안

• CLIP의 퓨샷 성능을 개선하기 위해선, 제로샷 분류기를 사전 분포(prior)로 활용하여 퓨샷 모델에 통합하는 연구가 필요

예: 제로샷 분류기의 가중치를 L2 regularization 기반으로 퓨샷 초기값으로 사용

😛 5. Data Overlap Analysis (데이터 중복 분석)

🎯 문제의식

• CLIP은 웹에서 수집한 대규모 데이터셋으로 사전학습됨

• 이로 인해 downstream 평가용 데이터셋이 의도치 않게 사전학습 데이터와 중복될 수 있음

• 이는 일반화 능력 평가를 왜곡하고, 성능을 부풀릴 위험이 있음

🧪 분석 절차

1. 중복 탐지기(duplicate detector) 사용 → 각 벤치마크에서 학습셋과 유사한 이미지 탐색

2. 수동 검토 후 유사도 기준(threshold) 설정

3. 데이터셋을 Overlap / Clean / All 세트로 분할

• Overlap: 사전학습 데이터와 겹치는 샘플

• Clean: 중복 없음

• All: 전체 테스트셋

4. 세 그룹의 성능 차이를 통해 중복이 성능에 미치는 영향 분석

📊 결과 요약

중복률 중앙값	2.2%
평균 중복률	3.2%
정확도 차이	대부분 0.1% 미만
통계적으로 유의미한 성능 향상	35개 중 6개 데이터셋에서만 유의미
가장 큰 영향	Birdsnap: 12.1% 중복 → 성능 +0.6%
가장 많은 중복	Country211: 21.5% 중복 → 성능 +0.2%

대부분의 경우, 중복이 전체 성능에 미치는 영향은 매우 작음

중복이 많아도, 해당 텍스트 설명이 실제 태스크와 관련 없을 수 있음

(예: 지리 위치 분류인데 텍스트에 위치가 없음)

⚠️ 분석의 잠재적 한계

• 탐지기 한계: 4억 개 예시 전체를 다 확인하는 건 불가능

• 분포 차이 문제:

• Overlap / Clean 간 난이도나 클래스 분포 차이가 정확도 차이에 영향을 줄 수 있음

• 예: Kinetics-700에서는 Overlap 샘플이 실제로는 전환 화면(검은 화면)이 많아 정확도 급락

📌 결론

• 의도치 않은 중복은 존재하나, 그 비율은 매우 낮고 성능 부풀림 영향은 제한적

• 기존 대규모 사전학습 모델 분석 결과와도 일치함

(Mahajan et al., 2018; Kolesnikov et al., 2019)

• 모델이 진짜로 일반화에 성공한 것이라고 볼 수 있는 근거 제공

😛 6. CLIP의 한계 (Limitations)

🔹 1. 세부 작업(task-specific) 성능 한계

• 제로샷 CLIP은 평균적으로 괜찮은 성능을 보이지만, 세부적인 분류(fine-grained classification)에서는 성능 저조함

예: 자동차 모델, 꽃 품종, 항공기 변형 등

• 복잡하고 추상적인 태스크에서도 성능 부족

예: 물체 개수 세기, 거리 추정, 의료 영상 분석, 교통표지 인식

• 일반 사용자는 가능하지만 CLIP은 성능이 랜덤 수준인 경우도 있음

→ 즉, 많은 태스크에서 여전히 인간보다 취약

🔹 2. 데이터 효율성 부족

• CLIP은 딥러닝의 데이터 비효율성 문제를 해결하지 못함

• 단지 엄청난 양의 웹 이미지-텍스트 쌍으로 보완했을 뿐

• 예: CLIP은 32 epoch 동안 128억 개 이미지를 학습

→ 1초에 1장씩 보여줘도 405년 걸림

• 해결책으로는:

• Self-supervised learning

• Self-training 등의 접목 제안

🔹 3. few-shot 학습 최적화 부족

• CLIP은 few-shot 설정에 최적화되어 있지 않음

• 실험에선 linear classifier를 얹어 실험했는데,

→ 의외로 성능이 제로샷보다 낮게 나오는 현상 발생

• 인간은 1개 예시만 봐도 급격히 학습하지만,

CLIP은 그렇지 않음 → 인간과 대조적 학습 구조

🔹 4. 자연어 분류기의 한계

• 자연어로 분류기를 정의하는 것은 유연하지만, 복잡한 개념은 단순 텍스트로 표현하기 어려움

• 또한, 제로샷 분류기는 지정된 라벨(텍스트 후보) 중 선택만 가능

→ 이미지 캡셔닝처럼 자유롭게 생성하지는 못함

• 향후에는 대조 학습 + 생성 학습의 결합이 대안이 될 수 있음

🔹 5. 진정한 제로샷이 아님

• 논문은 제로샷 전이 능력 평가에 초점 두었지만, 실제 개발 과정에서는 자주 검증 세트의 전체 성능을 참조함

• 즉, 완전한 제로샷 상황과는 다름 (semi-supervised 비판과 유사)

🔹 6. 평가 데이터셋의 편향

• 주요 실험 결과는 기존 감독 데이터셋 27개에서 수집됨

→ CLIP 개발에 최적화(co-adapted)된 것일 가능성

→ 제로샷 전이를 위한 새로운 벤치마크 필요성 제시

🔹 7. 사회적 편향(social bias)

• 인터넷 텍스트 기반 학습으로 인해 사회적 편향 내포

• 성별, 인종 관련 문제 가능성 있음 (FairFace 실험 등)

• 이는 기존 이미지 캡션 모델과 유사한 문제로, CLIP도 편향된 언어 데이터를 통해 잘못된 연관을 학습할 수 있음

😛 7. Broader Impacts (광범위한 영향 분석)

🔹 1. 자유로운 분류기 생성 능력의 사회적 영향

• CLIP은 제로샷 분류를 통해 사용자가 임의의 분류기(“roll your own classifier”)를 만들 수 있음

• 예: 고양이/개를 분류하거나, 쇼핑몰 CCTV로 도둑을 식별하는 것까지 가능

→ 후자의 경우 사회적, 윤리적 파장이 크며 AI의 적합성을 다시 검토해야 할 필요

• 이 능력은 GPT-3처럼 테스트를 통해서만 그 성능의 범위를 알 수 있음

→ 광범위한 응용 가능성과 동시에 책임 있는 사용 필요

🔹 2. 모델 활용 범위와 가능성

• 텍스트-이미지 검색, 이미지 검색, OCR, 행동 인식, 감정 인식, 위치 추정 등

다양한 태스크에서 강력한 활용 가능성 있음

• 특히, CLIP은 학습 없이도 애플리케이션을 커스터마이징할 수 있어

→ 향후 새로운 킬러 앱 가능성 존재

• 하지만 이런 유연성은 동시에 악용 가능성도 높임

🔹 3. 감시(surveillance) 분야 활용 논의

• CLIP은 감시용으로 설계되지 않았지만,

감시 영상이나 정체성 인식(celebrity identification)에 일부 성능을 보임

예시: VIRAT, Varadarajan 데이터셋 사용해 저해상도 CCTV 이미지 실험

• “주차장인지 아닌지”, “사람이 구석에 있는지” 등의 coarse/fine classification 시도

• CLIP은 이런 태스크에서 비전문가도 손쉽게 적용 가능하다는 점에서 위험 요소 있음

→ 사회적 민감성 감안한 규범적 논의가 필요

🔹 4. 편향과 악용 우려

• CLIP은 웹 기반 텍스트를 사용하기 때문에 성별, 인종 등 사회적 편향을 학습함

• FairFace 벤치마크 및 탐색적 실험 수행

• CLIP이 자동화된 레이블링 구조를 갖는 만큼,

모델이 학습한 편향은 새로운 태스크에서도 그대로 드러날 수 있음

🔹 5. 향후 과제 및 커뮤니티 제안

• CLIP 같은 범용 모델에 대해선 다음이 필요함:

1. 응용 분야별 유익한 활용처 조기 식별

2. 정책적 개입이 필요한 민감한 태스크 분류

3. 편향 정량화 및 수정 방향 연구

4. 정형화된 테스트 수트 구성

5. 실패 모드 탐색

CLIP이 가진 능력과 한계를 더 잘 이해하고, 사회적으로 유익한 방향으로 유도하는 것이 핵심

😛 8. Related Work

🔹 1. 자연어 감독의 범위

• 자연어를 감독 신호로 사용하는 모든 모델은 이 영역에 포함됨

예:

• 분포 의미론(distributional semantics): 토픽 모델, word2vec, sentence embedding 등

• 언어 모델(language models): GPT, BERT 등

• 자연어 감독은 단순한 라벨 대신 설명, 피드백, 지시 등을 통해 학습을 유도하는 접근으로 확장됨

예: ExpBERT (자연어 설명을 임베딩 특성으로 사용)

🔹 2. 대화 기반 학습

• 인간처럼 인터랙션을 통해 학습하는 연구들도 있음

• 예: dialog-based learning, semantic parsing을 통한 텍스트→라벨 변환 등

• 자연어 설명을 기능(feature)이나 학습 신호로 사용하여 지식 전이, 분류 정확도 향상 시도

🔹 3. 비언어 도메인에서의 자연어 감독

• 자연어를 언어 이외의 도메인(영상, 이미지 등)에 적용한 연구들:

• 영상 이벤트 이해(Ramanathan et al., 2013)

• 이미지 검색/분류에서의 자연어 활용 (1999~2009)

• 세분화 분류(Fine-grained classification) 개선 (예: 조류 분류)

🔹 4. 강화학습 + 자연어

• 자연어 설명을 강화학습 환경에 적용하여 제로샷 능력 향상 시도

• 예: Hill et al., 2019 – 대화 기반 피드백을 통한 task 수행 능력 향상

🔹 5. 텍스트-이미지 검색과 멀티모달 임베딩

• 초기 연구: 이미지 검색 목적의 자연어 사용 (Mori et al., 1999)

• 이후 흐름:

• joint embedding 공간 학습으로 전환

• Kernel CCA, ranking objective, Frome et al. (2013), Karpathy et al. (2014) 등

🔹 6. 웹 기반 데이터 학습 (Webly-Supervised Learning)

• 이미지 검색 엔진의 query를 라벨처럼 사용하는 학습법

• CLIP도 이와 유사하지만, CLIP은 전체 텍스트 설명을 학습에 사용함

• Divvala et al. (2014)와 비슷한 목적 추구: “everything about anything”

🔹 7. 비전-언어 공동 학습 모델과의 차이점

• 기존 대표 모델들: VisualBERT, LXMERT, UNITER 등

• 구조: 이미지 피처 + 객체 검출기 + BERT 기반 텍스트 → joint attention

• 태스크: VQA, Visual Entailment, Visual Commonsense 등

• CLIP의 차별점:

• 멀티모달 attention 없이, 이미지와 텍스트 임베딩을 독립적으로 학습

• 유일한 상호작용은 dot product를 통한 유사도 계산

→ CLIP은 범용 비전 모델 학습에 집중하며, 복잡한 멀티모달 파이프라인 없이 높은 성능 확보

자연어 감독	단순 라벨이 아닌, 설명·피드백 등 언어적 감독 신호로 학습 유도
대화 기반 학습	인터랙션 중심 자연어 학습 구조
타 도메인 적용	영상, 세분화 분류 등에서 자연어 설명 활용
텍스트-이미지 학습	초기엔 검색 → 점차 멀티모달 임베딩으로 발전
웹 기반 학습	noisy label을 활용한 대규모 학습, CLIP과 연결
비전-언어 공동 학습	CLIP은 joint attention 없이 임베딩 정렬 방식 사용

😛 9. Conclusion

🎯 핵심 목표

• 자연어 감독 기반의 웹 규모 사전학습이 NLP에서 성공했던 방식을, 컴퓨터 비전으로 이식할 수 있는가?라는 질문을 출발점으로 삼음

🔍 주요 발견

• 이 접근은 컴퓨터 비전 분야에서도 유사한 현상을 만들어낼 수 있음

• 대규모 이미지-텍스트 쌍 사전학습을 통해 다양한 작업을 자연스럽게 학습

• 자연어 프롬프트만으로 제로샷 전이 가능

• CLIP은 사전학습 과정에서 다양한 시각 태스크 수행법 자체를 학습

→ 학습된 표현은 다양한 데이터셋에 텍스트 프롬프트만으로 적용 가능

📊 성능 요약

• 충분한 스케일(데이터 + 모델 크기)에서는 태스크 특화된 감독 학습 모델과 비교해도 경쟁 가능한 성능

• 단, 여전히 개선의 여지는 많음

저작자표시 (새창열림)

'Club|Project > Euron | AI,데이터분석 학회' 카테고리의 다른 글

😛 Clip 유런 발표 : Learning Transferable Visual Models From Natural Language Supervision (0)	2025.04.08
✳️ Denoising Diffusion Probabilistic Models 인트로 리뷰 (0)	2025.04.07
😛 Clip : Learning Transferable Visual Models From Natural Language Supervision : 1. Introduction - 3. Experiments (0)	2025.04.03
❇️ 유런 DQN 발표 정리 (0)	2025.04.01
✳️[ Playing Atari with Deep Reinforcement Learning ] 논문 리뷰 (0)	2025.03.30

은체공부

😛 Clip : Learning Transferable Visual Models From Natural Language Supervision : 4. Comparison to Human Performance - 9. Conclusion

😛 4. 인간 성능과의 비교 (Comparison to Human Performance)

😛 5. Data Overlap Analysis (데이터 중복 분석)

😛 6. CLIP의 한계 (Limitations)

😛 7. Broader Impacts (광범위한 영향 분석)

😛 8. Related Work

😛 9. Conclusion

'Club|Project > Euron | AI,데이터분석 학회' 카테고리의 다른 글

티스토리툴바

😛 Clip : Learning Transferable Visual Models From Natural Language Supervision : 4. Comparison to Human Performance - 9. Conclusion

😛 4. 인간 성능과의 비교 (Comparison to Human Performance)

😛 5. Data Overlap Analysis (데이터 중복 분석)

😛 6. CLIP의 한계 (Limitations)

😛 7. Broader Impacts (광범위한 영향 분석)

😛 8. Related Work

😛 9. Conclusion

'Club|Project > Euron | AI,데이터분석 학회' 카테고리의 다른 글

관련글

티스토리툴바