😛 4. 인간 성능과의 비교 (Comparison to Human Performance)
🎯 실험 목적
• CLIP과 인간이 비슷한 상황에서 제로샷/퓨샷 학습 성능을 어떻게 보이는지 비교
• 모델과 인간의 표본 효율(sample efficiency) 및 학습 방식의 차이를 분석
🧪 실험 설계
• 실험 데이터셋: Oxford IIT Pets (총 3669장, 37개의 고양이/강아지 품종)
• 5명의 인간 평가자에게 3가지 조건에서 분류 실험 수행:
• Zero-shot: 아무 예시도 없이 품종 분류
• 1-shot: 품종별 예시 이미지 1장 제공
• 2-shot: 품종별 예시 이미지 2장 제공
• CLIP은 동일한 조건에서 제로샷 분류기로 평가
📊 결과 요약 (정량)
조건 | 전체 정확도 | “모름 제외” 정확도 | 다수결 정확도 | “모름 제외” 다수결 |
인간 Zero-shot | 53.7% | 57.0% | 69.7% | 63.9% |
CLIP Zero-shot | 93.5% | 93.5% | 93.5% | 93.5% |
인간 1-shot | 75.7% | 80.3% | 78.5% | 81.2% |
인간 2-shot | 75.7% | 85.0% | 79.2% | 86.1% |
👉 CLIP은 인간보다 훨씬 뛰어난 제로샷 성능을 보임
🧠 해석 및 통찰
• 인간은 불확실한 이미지에 대해 “모름”을 선택하며, 1개의 예시만으로도 정확한 개념 업데이트 가능
• 이는 인간이 자신이 모르는 것을 아는(metatacognitive) 능력을 가진다는 증거
• 반면, CLIP은 명시적인 예시 없이 텍스트를 통해 시각 개념을 직접 커뮤니케이션 가능
⚠️ 기계 vs 인간의 퓨샷 학습 차이
• 인간은 1-shot만으로 큰 성능 향상을 보이나, CLIP은 상대적으로 향상 폭이 적음
• 이는 인간은 사전 지식(prior knowledge)을 적극 활용하지만, CLIP은 이를 잘 사용하지 못하기 때문
🔧 개선 방향 제안
• CLIP의 퓨샷 성능을 개선하기 위해선, 제로샷 분류기를 사전 분포(prior)로 활용하여 퓨샷 모델에 통합하는 연구가 필요
예: 제로샷 분류기의 가중치를 L2 regularization 기반으로 퓨샷 초기값으로 사용
😛 5. Data Overlap Analysis (데이터 중복 분석)
🎯 문제의식
• CLIP은 웹에서 수집한 대규모 데이터셋으로 사전학습됨
• 이로 인해 downstream 평가용 데이터셋이 의도치 않게 사전학습 데이터와 중복될 수 있음
• 이는 일반화 능력 평가를 왜곡하고, 성능을 부풀릴 위험이 있음
🧪 분석 절차
1. 중복 탐지기(duplicate detector) 사용 → 각 벤치마크에서 학습셋과 유사한 이미지 탐색
2. 수동 검토 후 유사도 기준(threshold) 설정
3. 데이터셋을 Overlap / Clean / All 세트로 분할
• Overlap: 사전학습 데이터와 겹치는 샘플
• Clean: 중복 없음
• All: 전체 테스트셋
4. 세 그룹의 성능 차이를 통해 중복이 성능에 미치는 영향 분석
📊 결과 요약
중복률 중앙값 | 2.2% |
평균 중복률 | 3.2% |
정확도 차이 | 대부분 0.1% 미만 |
통계적으로 유의미한 성능 향상 | 35개 중 6개 데이터셋에서만 유의미 |
가장 큰 영향 | Birdsnap: 12.1% 중복 → 성능 +0.6% |
가장 많은 중복 | Country211: 21.5% 중복 → 성능 +0.2% |
대부분의 경우, 중복이 전체 성능에 미치는 영향은 매우 작음
중복이 많아도, 해당 텍스트 설명이 실제 태스크와 관련 없을 수 있음
(예: 지리 위치 분류인데 텍스트에 위치가 없음)
⚠️ 분석의 잠재적 한계
• 탐지기 한계: 4억 개 예시 전체를 다 확인하는 건 불가능
• 분포 차이 문제:
• Overlap / Clean 간 난이도나 클래스 분포 차이가 정확도 차이에 영향을 줄 수 있음
• 예: Kinetics-700에서는 Overlap 샘플이 실제로는 전환 화면(검은 화면)이 많아 정확도 급락
📌 결론
• 의도치 않은 중복은 존재하나, 그 비율은 매우 낮고 성능 부풀림 영향은 제한적
• 기존 대규모 사전학습 모델 분석 결과와도 일치함
(Mahajan et al., 2018; Kolesnikov et al., 2019)
• 모델이 진짜로 일반화에 성공한 것이라고 볼 수 있는 근거 제공
😛 6. CLIP의 한계 (Limitations)
🔹 1. 세부 작업(task-specific) 성능 한계
• 제로샷 CLIP은 평균적으로 괜찮은 성능을 보이지만, 세부적인 분류(fine-grained classification)에서는 성능 저조함
예: 자동차 모델, 꽃 품종, 항공기 변형 등
• 복잡하고 추상적인 태스크에서도 성능 부족
예: 물체 개수 세기, 거리 추정, 의료 영상 분석, 교통표지 인식
• 일반 사용자는 가능하지만 CLIP은 성능이 랜덤 수준인 경우도 있음
→ 즉, 많은 태스크에서 여전히 인간보다 취약
🔹 2. 데이터 효율성 부족
• CLIP은 딥러닝의 데이터 비효율성 문제를 해결하지 못함
• 단지 엄청난 양의 웹 이미지-텍스트 쌍으로 보완했을 뿐
• 예: CLIP은 32 epoch 동안 128억 개 이미지를 학습
→ 1초에 1장씩 보여줘도 405년 걸림
• 해결책으로는:
• Self-supervised learning
• Self-training 등의 접목 제안
🔹 3. few-shot 학습 최적화 부족
• CLIP은 few-shot 설정에 최적화되어 있지 않음
• 실험에선 linear classifier를 얹어 실험했는데,
→ 의외로 성능이 제로샷보다 낮게 나오는 현상 발생
• 인간은 1개 예시만 봐도 급격히 학습하지만,
CLIP은 그렇지 않음 → 인간과 대조적 학습 구조
🔹 4. 자연어 분류기의 한계
• 자연어로 분류기를 정의하는 것은 유연하지만, 복잡한 개념은 단순 텍스트로 표현하기 어려움
• 또한, 제로샷 분류기는 지정된 라벨(텍스트 후보) 중 선택만 가능
→ 이미지 캡셔닝처럼 자유롭게 생성하지는 못함
• 향후에는 대조 학습 + 생성 학습의 결합이 대안이 될 수 있음
🔹 5. 진정한 제로샷이 아님
• 논문은 제로샷 전이 능력 평가에 초점 두었지만, 실제 개발 과정에서는 자주 검증 세트의 전체 성능을 참조함
• 즉, 완전한 제로샷 상황과는 다름 (semi-supervised 비판과 유사)
🔹 6. 평가 데이터셋의 편향
• 주요 실험 결과는 기존 감독 데이터셋 27개에서 수집됨
→ CLIP 개발에 최적화(co-adapted)된 것일 가능성
→ 제로샷 전이를 위한 새로운 벤치마크 필요성 제시
🔹 7. 사회적 편향(social bias)
• 인터넷 텍스트 기반 학습으로 인해 사회적 편향 내포
• 성별, 인종 관련 문제 가능성 있음 (FairFace 실험 등)
• 이는 기존 이미지 캡션 모델과 유사한 문제로, CLIP도 편향된 언어 데이터를 통해 잘못된 연관을 학습할 수 있음
😛 7. Broader Impacts (광범위한 영향 분석)
🔹 1. 자유로운 분류기 생성 능력의 사회적 영향
• CLIP은 제로샷 분류를 통해 사용자가 임의의 분류기(“roll your own classifier”)를 만들 수 있음
• 예: 고양이/개를 분류하거나, 쇼핑몰 CCTV로 도둑을 식별하는 것까지 가능
→ 후자의 경우 사회적, 윤리적 파장이 크며 AI의 적합성을 다시 검토해야 할 필요
• 이 능력은 GPT-3처럼 테스트를 통해서만 그 성능의 범위를 알 수 있음
→ 광범위한 응용 가능성과 동시에 책임 있는 사용 필요
🔹 2. 모델 활용 범위와 가능성
• 텍스트-이미지 검색, 이미지 검색, OCR, 행동 인식, 감정 인식, 위치 추정 등
다양한 태스크에서 강력한 활용 가능성 있음
• 특히, CLIP은 학습 없이도 애플리케이션을 커스터마이징할 수 있어
→ 향후 새로운 킬러 앱 가능성 존재
• 하지만 이런 유연성은 동시에 악용 가능성도 높임
🔹 3. 감시(surveillance) 분야 활용 논의
• CLIP은 감시용으로 설계되지 않았지만,
감시 영상이나 정체성 인식(celebrity identification)에 일부 성능을 보임
예시: VIRAT, Varadarajan 데이터셋 사용해 저해상도 CCTV 이미지 실험
• “주차장인지 아닌지”, “사람이 구석에 있는지” 등의 coarse/fine classification 시도
• CLIP은 이런 태스크에서 비전문가도 손쉽게 적용 가능하다는 점에서 위험 요소 있음
→ 사회적 민감성 감안한 규범적 논의가 필요
🔹 4. 편향과 악용 우려
• CLIP은 웹 기반 텍스트를 사용하기 때문에 성별, 인종 등 사회적 편향을 학습함
• FairFace 벤치마크 및 탐색적 실험 수행
• CLIP이 자동화된 레이블링 구조를 갖는 만큼,
모델이 학습한 편향은 새로운 태스크에서도 그대로 드러날 수 있음
🔹 5. 향후 과제 및 커뮤니티 제안
• CLIP 같은 범용 모델에 대해선 다음이 필요함:
1. 응용 분야별 유익한 활용처 조기 식별
2. 정책적 개입이 필요한 민감한 태스크 분류
3. 편향 정량화 및 수정 방향 연구
4. 정형화된 테스트 수트 구성
5. 실패 모드 탐색
CLIP이 가진 능력과 한계를 더 잘 이해하고, 사회적으로 유익한 방향으로 유도하는 것이 핵심
😛 8. Related Work
🔹 1. 자연어 감독의 범위
• 자연어를 감독 신호로 사용하는 모든 모델은 이 영역에 포함됨
예:
• 분포 의미론(distributional semantics): 토픽 모델, word2vec, sentence embedding 등
• 언어 모델(language models): GPT, BERT 등
• 자연어 감독은 단순한 라벨 대신 설명, 피드백, 지시 등을 통해 학습을 유도하는 접근으로 확장됨
예: ExpBERT (자연어 설명을 임베딩 특성으로 사용)
🔹 2. 대화 기반 학습
• 인간처럼 인터랙션을 통해 학습하는 연구들도 있음
• 예: dialog-based learning, semantic parsing을 통한 텍스트→라벨 변환 등
• 자연어 설명을 기능(feature)이나 학습 신호로 사용하여 지식 전이, 분류 정확도 향상 시도
🔹 3. 비언어 도메인에서의 자연어 감독
• 자연어를 언어 이외의 도메인(영상, 이미지 등)에 적용한 연구들:
• 영상 이벤트 이해(Ramanathan et al., 2013)
• 이미지 검색/분류에서의 자연어 활용 (1999~2009)
• 세분화 분류(Fine-grained classification) 개선 (예: 조류 분류)
🔹 4. 강화학습 + 자연어
• 자연어 설명을 강화학습 환경에 적용하여 제로샷 능력 향상 시도
• 예: Hill et al., 2019 – 대화 기반 피드백을 통한 task 수행 능력 향상
🔹 5. 텍스트-이미지 검색과 멀티모달 임베딩
• 초기 연구: 이미지 검색 목적의 자연어 사용 (Mori et al., 1999)
• 이후 흐름:
• joint embedding 공간 학습으로 전환
• Kernel CCA, ranking objective, Frome et al. (2013), Karpathy et al. (2014) 등
🔹 6. 웹 기반 데이터 학습 (Webly-Supervised Learning)
• 이미지 검색 엔진의 query를 라벨처럼 사용하는 학습법
• CLIP도 이와 유사하지만, CLIP은 전체 텍스트 설명을 학습에 사용함
• Divvala et al. (2014)와 비슷한 목적 추구: “everything about anything”
🔹 7. 비전-언어 공동 학습 모델과의 차이점
• 기존 대표 모델들: VisualBERT, LXMERT, UNITER 등
• 구조: 이미지 피처 + 객체 검출기 + BERT 기반 텍스트 → joint attention
• 태스크: VQA, Visual Entailment, Visual Commonsense 등
• CLIP의 차별점:
• 멀티모달 attention 없이, 이미지와 텍스트 임베딩을 독립적으로 학습
• 유일한 상호작용은 dot product를 통한 유사도 계산
→ CLIP은 범용 비전 모델 학습에 집중하며, 복잡한 멀티모달 파이프라인 없이 높은 성능 확보
자연어 감독 | 단순 라벨이 아닌, 설명·피드백 등 언어적 감독 신호로 학습 유도 |
대화 기반 학습 | 인터랙션 중심 자연어 학습 구조 |
타 도메인 적용 | 영상, 세분화 분류 등에서 자연어 설명 활용 |
텍스트-이미지 학습 | 초기엔 검색 → 점차 멀티모달 임베딩으로 발전 |
웹 기반 학습 | noisy label을 활용한 대규모 학습, CLIP과 연결 |
비전-언어 공동 학습 | CLIP은 joint attention 없이 임베딩 정렬 방식 사용 |
😛 9. Conclusion
🎯 핵심 목표
• 자연어 감독 기반의 웹 규모 사전학습이 NLP에서 성공했던 방식을, 컴퓨터 비전으로 이식할 수 있는가?라는 질문을 출발점으로 삼음
🔍 주요 발견
• 이 접근은 컴퓨터 비전 분야에서도 유사한 현상을 만들어낼 수 있음
• 대규모 이미지-텍스트 쌍 사전학습을 통해 다양한 작업을 자연스럽게 학습
• 자연어 프롬프트만으로 제로샷 전이 가능
• CLIP은 사전학습 과정에서 다양한 시각 태스크 수행법 자체를 학습
→ 학습된 표현은 다양한 데이터셋에 텍스트 프롬프트만으로 적용 가능
📊 성능 요약
• 충분한 스케일(데이터 + 모델 크기)에서는 태스크 특화된 감독 학습 모델과 비교해도 경쟁 가능한 성능
• 단, 여전히 개선의 여지는 많음
'🤖 AI > AI' 카테고리의 다른 글
😛 Clip : Learning Transferable Visual Models From Natural Language Supervision : 1. Introduction - 3. Experiments (0) | 2025.04.03 |
---|---|
🦿NLP / 감정분석(LSTM) 모델 훈련/평가 (0) | 2025.02.23 |
🦿다층 퍼셉트론(MLP) 기반 숫자 분류 모델 (PyTorch) (0) | 2025.02.23 |
📑 AI Q&As (0) | 2025.02.15 |
📑 모델 최적화 및 트레이닝 기본 개념 (0) | 2025.02.15 |