PPT
실습 코드
🎤 발표 대본 — Slide #01: Introduction
안녕하세요, 오늘 발표에서는 OpenAI의 CLIP 논문을 중심으로
“자연어로 학습한 시각 모델이 얼마나 강력한가” 를 이야기해 보려고 합니다.
먼저, 기존 컴퓨터 비전 시스템의 한계부터 짚고 가겠습니다.
대부분의 비전 모델은 고정된 라벨을 이용한 지도 학습에 의존해 왔습니다.
하지만 이런 방식은 확장성에 한계가 있고,
제로샷 전이도 어렵고, 라벨링 비용도 굉장히 큽니다.
반면, NLP에서는 이미 GPT나 BERT 같은 모델들이,
웹에서 수집한 자연어 데이터로 사전학습(pretraining) 을 하면서
놀라운 성과를 보여주고 있죠.
그렇다면 이런 아이디어를 컴퓨터 비전에도 적용할 수는 없을까?
이게 바로 CLIP 논문의 출발점입니다.
여기서 기존 방식의 구체적인 한계를 정리해보면요,
• 대부분의 CV 모델은 ImageNet 분류 같은 문제에 최적화되어 있고,
• 새로운 클래스나 태스크가 추가되면 다시 라벨링된 데이터가 필요합니다.
• 특히 표현 학습에는 강하지만, 태스크를 학습하는 능력, 즉 task learning은 약한 편이죠.
이런 상황에서 CLIP이 제안한 것은 아주 단순하면서도 강력합니다.
• 웹에서 수집한 4억 개의 이미지–텍스트 쌍을 이용해서
• 이 쌍이 서로 잘 맞는지를 맞히는 대조 학습(contrastive learning) 을 통해
이미지와 텍스트를 동시에 학습한 거예요.
그렇게 학습된 모델은,
단지 텍스트 프롬프트만으로 제로샷 분류기처럼 동작할 수 있고,
OCR, 감정 인식, 위치 인식 등 30개 이상의 태스크에 별도 학습 없이 적용됩니다.
즉, CLIP은 단순한 구조로 비전의 범용성(generalization) 을 끌어낸,
아주 흥미로운 시도라고 볼 수 있습니다.
🎤 발표 대본 — Slide #02: 핵심 질문과 메시지
앞에서 살펴봤듯이, 기존 컴퓨터 비전 모델들은 고정된 라벨에 의존했고,
이로 인해 제로샷 전이, 범용 태스크 확장에는 한계가 있었습니다.
그렇다면 이런 질문을 던질 수 있겠죠.
“자연어 감독으로 학습된 시각 모델이,
라벨 없이도 다양한 비전 태스크에 전이될 수 있을까?”
이 질문은 단순한 궁금증을 넘어서
비전 모델의 학습 패러다임 자체를 바꿀 수 있느냐는
굉장히 본질적인 도전이기도 합니다.
그리고 CLIP은 가능하다는 증거를 제시했습니다.
CLIP은 4억 개의 이미지–텍스트 쌍을 학습하고 나서,
단 한 번도 본 적 없는 태스크에 대해서도
추가적인 학습 없이,
텍스트 프롬프트만으로 놀라운 제로샷 성능을 보여줍니다.
이제부터는 CLIP이 어떻게 이 가능성을 실현했는지
구체적인 방법론과 실험을 중심으로 살펴보겠습니다.
🎤 발표 대본 — Related Work (슬라이드 3~5)
🔹 (1) OpenAI의 멀티모달 모델들
CLIP을 이해하기 위해서는, OpenAI가 어떤 멀티모달 모델을 만들어왔는지를 먼저 살펴볼 필요가 있습니다.
대표적으로 두 가지가 있습니다.
• CLIP: 이미지를 보고 텍스트를 예측하거나, 텍스트를 보고 이미지를 인식하는 모델입니다. 즉,
이미지 → 텍스트
• DALL·E: 반대로, 텍스트를 입력하면 이미지를 생성하는 모델입니다.
텍스트 → 이미지
이 두 모델은 방향은 다르지만 공통적으로
“텍스트와 이미지를 하나의 표현 공간에서 이해하려는 시도” 라는 점에서 멀티모달의 핵심 흐름을 보여줍니다.
그리고 이 발표에서는 CLIP, 즉 텍스트로 이미지의 의미를 인식해내는 방향에 집중해서 보겠습니다.
🔹 (2) NLP의 사전학습 흐름과의 연결
그렇다면 왜 CLIP이 등장했을까요?
사실 이 아이디어는 NLP에서 먼저 성공한 개념입니다.
• 우리가 잘 아는 word2vec, BERT, GPT 같은 모델들은
모두 웹에서 수집한 대규모 텍스트로 학습된 사전학습 모델이죠.
NLP는 이미 자연어 자체를 학습 신호로 삼는 데 익숙합니다.
왜냐하면 자연어는 그 안에 이미
지식, 의미, 태스크 설명이 포함되어 있기 때문이에요.
이 덕분에 NLP에서는 태스크에 특화되지 않은 학습, 즉 태스크 무관 학습(objective-agnostic learning) 이 가능해졌고,
그 결과 제로샷, few-shot 학습이 현실이 됐습니다.
그렇다면 이런 접근이 컴퓨터 비전에도 가능할까요?
• 비전에서 “라벨 없는 학습”은 그동안 거의 시도되지 않았습니다.
• 왜냐하면, 이미지 자체는 어떤 태스크인지 말해주지 않기 때문입니다.
하지만, 이미지와 함께 올라온 텍스트 —
예를 들어 인스타그램 캡션, 뉴스 이미지 설명 등 —
이런 것들이 자연어 감독 신호로 작동할 수 있다면?
이것이 바로 CLIP이 등장하게 된 배경입니다.
NLP에서 성공한 패러다임을 비전으로 전이시킨 시도인 거죠.
🎤 발표 대본 — Slide #06: 기존 비전-언어 공동 학습 모델과 CLIP의 차이
이번에는 CLIP과 대비되는 기존의 비전–언어 멀티모달 모델들을 소개드리겠습니다.
대표적인 모델로는
• VisualBERT
• LXMERT
• 그리고 UNITER 같은 모델들이 있습니다.
이 모델들의 공통점은 다음과 같습니다.
• 이미지의 객체 정보 + 텍스트 문장을 하나의 입력으로 받아서,
• Transformer의 joint attention 구조에서 두 modality를 동시에 처리합니다.
• 이런 방식은 VQA, 이미지 캡셔닝, 상식 추론처럼
복잡한 reasoning이 필요한 태스크에서 많이 사용됐죠.
하지만 이런 모델들은 구조가 복잡하다는 단점이 있습니다.
CLIP은 여기서 완전히 다른 접근을 선택합니다.
• 이미지 인코더와 텍스트 인코더를 완전히 분리해서 독립적으로 학습시키고,
• 마지막에 두 표현 사이의 dot product (내적) 만으로 유사도를 계산합니다.
즉, 두 modality를 joint attention으로 억지로 섞지 않고,
임베딩 공간에서 유사성 비교만으로 전이 학습을 가능하게 한 거죠.
이러한 구조는 몇 가지 큰 장점을 갖습니다.
1. 단순하고 확장 가능하다
2. 학습 시 멀티 GPU 병렬처리 최적화가 가능하다
3. 추론 시에도 한쪽 인코더만으로 재사용 가능
이런 점들이 CLIP이 웹에서 수집한 수억 개의 이미지–텍스트 쌍을 학습하면서도
효율을 유지할 수 있었던 비결입니다.
🎤 발표 대본 — Slide #07: 멀티모달 임베딩 & 이미지–텍스트 정렬의 흐름
사실 CLIP 이전에도 이미지와 텍스트를 정렬하려는 시도는 꾸준히 있어 왔습니다.
가장 대표적인 사례들을 보면,
• Mori et al. (1999): 이미지와 문서 간 정렬을 시도한 초기 연구입니다.
• Karpathy et al. (2014): 문장과 이미지 간 ranking loss를 통해 정렬하는 방식이었고요,
• Frome et al. (2013): WordNet 임베딩을 이용한 DeViSE 모델을 통해 이미지 분류 문제를 라벨이 아닌 텍스트 임베딩 공간으로 해결하려 했습니다.
이처럼, 기존 연구들도 멀티모달 임베딩 공간을 구성하려는 시도는 해왔지만,
세 가지 측면에서 한계가 명확했습니다.
기존 방식의 한계
1. 작은 규모의 데이터셋
→ 수천~수만 개 수준의 이미지–텍스트 쌍
2. 약한 감독 신호
→ 캡션이나 WordNet 구조처럼 제한된 언어 자원
3. 도메인 특화
→ 웹 전체보다는 제한된 분야(예: Flickr, WordNet) 기반
CLIP의 차별점
CLIP은 이와는 달리,
• 4억 쌍의 웹 이미지–텍스트를 수집해
• 그 쌍이 서로 잘 맞는지를 대조 학습(contrastive learning) 방식으로 학습합니다.
그리고 중요한 건, CLIP이 사용한 텍스트는 단순한 단어 라벨이 아니라,
“자연어 전체 설명”
즉, 문장 수준의 설명이기 때문에,
훨씬 더 유연하고 개념적으로 넓은 의미 공간을 학습할 수 있었고,
이게 바로 CLIP이 다양한 제로샷 태스크에 잘 전이되는 핵심 배경입니다.
🎤 발표 대본 — Slide #08~09: 제안 방법론 CLIP
지금부터는 본격적으로 CLIP이 제안한 방법론을 살펴보겠습니다.
CLIP의 핵심 목표는 단순합니다.
이미지와 텍스트 쌍이 서로 잘 맞는지를 예측하는 방식으로 학습하는 것
이를 통해,
• 시각적 표현(vision representation)과
• 언어적 표현(language representation)을 동시에 학습합니다.
이 학습 방식은 단순히 두 모달리티를 이해하는 걸 넘어서,
이 둘을 “같은 의미 공간”에서 연결짓는 멀티모달 정렬 능력을 가지게 만듭니다.
CLIP의 핵심 아이디어는 4가지입니다.
1. 자연어 문장을 단순 라벨(label)이 아닌 감독 신호로 사용합니다.
→ 예: “dog” 대신 “A photo of a dog.”
→ 더 풍부한 의미 학습 가능
2. 거대한 이미지–텍스트 쌍 데이터셋 사용
→ WIT(Wikipedia-based Image Text dataset)를 포함한 4억 쌍 규모의 웹 데이터 활용
→ 기존 연구와 차별되는 압도적 스케일
3. 이미지와 텍스트 인코더를 완전히 분리
→ 서로 독립적으로 표현을 학습
→ 구조적으로 단순하고 병렬 확장성 뛰어남
4. 마지막으로, 대조 학습(Contrastive Learning)
→ 올바른 쌍은 가깝게, 나머지 쌍은 멀어지게
→ 이 구조만으로도 제로샷 분류까지 가능
오른쪽의 그래프(Figure 2)를 보면,
이 대조 학습 방식이 기존의 텍스트 생성 방식보다 훨씬 더 효율적이라는 것을 보여줍니다.
• 같은 이미지 수를 학습했을 때,
• 기존 방식보다 최대 4배 더 빠르게 성능 향상을 이룹니다.
즉, 단순하지만 효과적인 아이디어로
멀티모달 사전학습의 효율성과 전이력을 동시에 잡은 모델이라는 점에서
CLIP은 매우 강력한 구조입니다.
앞에서 CLIP의 학습 구조가 얼마나 단순한지 말씀드렸죠.
이제 그 구조가 실제로 얼마나 효과적인지 실험적으로 확인해 보겠습니다.
오른쪽에 보이는 그래프는 CLIP 논문의 Figure 2입니다.
X축은 학습에 사용된 이미지 개수,
Y축은 ImageNet에서 제로샷 분류 성능(accuracy) 입니다.
여기서 세 가지 학습 방식이 비교됩니다.
🔹 세 가지 방식 비교
1. Transformer Language Model (파란색)
• 전통적인 방식으로, 캡션을 생성하거나 직접적으로 문장을 예측합니다.
• 성능은 안정적이지만 제로샷에서는 약한 편
2.
Bag of Words Prediction (주황색)
• BoW 방식으로, 문장을 BoW로 보고 예측합니다.
• 효율은 올라가지만 여전히 느림
3. CLIP의 Contrastive 방식 (초록색)
• 정답 쌍은 유사도 최대화, 나머지는 최소화
• 단순히 “짝이 맞느냐”만 학습하는 방식
→ 가장 빠르게 성능 향상 달성
🔸 효율성 측면에서 정리하면
• Transformer 방식보다 최대 7배 빠른 학습
• BoW 방식과 비교해도 4배 효율적
즉, CLIP은
복잡한 언어 생성을 건너뛰고, 단순한 유사도 비교만으로 훨씬 빠르고 강력한 표현을 학습합니다.
이러한 결과는,
CLIP이 단순한 구조로도 멀티모달 정렬과 전이 학습을 동시에 달성할 수 있다는
강력한 실증 자료가 됩니다.
🎤 발표 대본 — Slide #11: 이미지 & 텍스트 인코더 구조
CLIP의 핵심 구조는 크게 두 가지 인코더로 구성됩니다.
바로 이미지 인코더와 텍스트 인코더입니다.
이 둘은 완전히 독립적으로 학습되며, 구조적으로 매우 단순합니다.
✅ 이미지 인코더
• ResNet 계열: ResNet-50부터 ResNet-50x64까지 다양하게 실험했습니다.
• Vision Transformer (ViT) 도 사용했습니다.
→ ViT-B/32, ViT-L/14 등 다양한 스케일을 테스트했어요.
• 입력 이미지는 224~336 해상도로 resize된 후
fixed-size vector representation으로 인코딩됩니다.
→ 즉, 어떤 이미지든 인코더를 거치면 정해진 차원의 벡터로 표현됩니다.
✅ 텍스트 인코더
• Transformer 기반 구조이며,
• 문장은 최대 76 토큰 길이로 잘려서 입력됩니다.
• 토크나이저는 BPE (Byte Pair Encoding) 를 사용합니다.
→ 자연어 문장을 subword 단위로 나눠서 처리
이 인코더 구조는
GPT나 BERT처럼 텍스트를 다루는 방법과 거의 동일하지만,
텍스트 생성이 아니라 의미 표현(embedding)을 만드는 데 집중합니다.
📦 학습 환경
• Optimizer는 Adam + decoupled weight decay
• Learning rate는 Cosine decay
• Batch size: 32,768 → mixed precision 사용으로 메모리 최적화
• 가장 큰 모델의 경우 592개 V100 GPU를 18일간 사용
• 총 8개의 모델 학습: ResNet 5종, ViT 3종
즉, 구조는 단순하지만
학습은 초대규모 클러스터에서 진행된,
전형적인 “스케일로 밀어붙인 파운데이션 모델 방식” 입니다.
🎤 발표 대본 — Slide #12: Pre-training 학습 – Contrastive Learning
CLIP은 이미지–텍스트 쌍의 일치 여부를 맞히는 방식으로 학습됩니다.
이 구조는 매우 단순하지만, 멀티모달 표현을 강력하게 정렬시켜주는 효과를 가집니다.
🔹 학습 방식 한 줄 요약
“한 배치 안의 모든 이미지–텍스트 쌍 중에서,
실제로 짝이 맞는 쌍을 맞히는 문제를 푸는 것”
🔸 학습 흐름 정리
1. 이미지 → 이미지 인코더 → 임베딩 f(x)
2. 텍스트 → 텍스트 인코더 → 임베딩 g(t)
그 다음,
• 모든 이미지–텍스트 쌍 (i, t)에 대해
sim(f(x_i), g(t_j))
즉, cosine similarity를 계산합니다.
• 총 N개의 이미지–텍스트 쌍이 있다면,
N × N 개의 유사도 매트릭스가 만들어지고,
이 중 정답 쌍의 유사도를 최대화, 나머지는 최소화하도록
softmax(입력 벡터의 각 원소를 확률처럼 해석) + cross entropy loss(정답 분포와 예측 확률 분포 사이의 차이)를 계산합니다.
오른쪽 그림처럼,
I_i 와 T_i 가 정답 쌍이라면,
이 쌍의 유사도를 크게 만들고,
다른 조합은 작게 만들어야 손실이 줄어들게 되죠.
🧠 왜 이게 효과적일까?
• 이 방식은 학습하면서 자연스럽게 이미지와 텍스트가 공유하는 의미 공간을 만들어냅니다.
• 즉, 멀티모달 임베딩 공간(multimodal embedding space) 이 형성되는 거예요.
• 이 임베딩 공간에서 텍스트와 이미지가 서로 가까운지로
다양한 태스크를 해결할 수 있습니다.
→ 분류, 검색, 제로샷 인식 등!
📦 학습 데이터: WebImageText (WIT)
• 웹에서 수집된 4억 쌍의 이미지–텍스트 페어
• 50만 개의 질의어(query) 기반으로 수집됨
• 단순 캡션이 아니라 title + alt-text + metadata 등 전체 문맥 기반 설명 사용
이런 설명들은 단어보다 훨씬 풍부한 의미를 전달하기 때문에
CLIP은 훨씬 일반적인 개념도 잘 배울 수 있습니다.
🎤 발표 대본 — Slide #13: 이미지 분류 – 제로샷 추론 방식
CLIP은 사전학습만으로도,
추가적인 라벨링이나 학습 없이 이미지를 분류할 수 있습니다.
즉, 제로샷 분류(zero-shot classification) 가 가능하다는 거예요.
그 핵심은 다음 문장에 담겨 있습니다.
“학습이 끝난 후, 텍스트가 분류기의 가중치 역할을 하게 된다.”
🔹 구체적인 방식
1. 먼저, 분류하려는 클래스들의 이름이 있다고 가정해 봅시다.
예: ["cat", "dog", "plane", "car"]
2. 이 클래스 이름을 문장 형태로 변환합니다.
• “A photo of a cat”,
• “A photo of a dog”, … 이런 식이죠.
→ 이걸 프롬프트(prompt) 라고 부릅니다.
3. 이렇게 변환된 텍스트들을 텍스트 인코더에 통과시켜 각 문장에 해당하는 텍스트 임베딩을 얻습니다.
4. 분류할 이미지를 이미지 인코더에 통과시켜 이미지 임베딩을 얻고요,
5. 이 이미지 임베딩과 텍스트 임베딩들 간의 코사인 유사도(similarity) 를 각각 계산합니다.
6. 그리고 가장 유사한 텍스트가 곧 이 이미지의 예측 클래스가 됩니다.
예를 들어, 이미지를 넣었더니
“A photo of a dog”와 가장 유사하다고 판단된다면,
→ 해당 이미지를 dog로 분류하게 되는 거예요.
✅ 요약
• 학습 시점에는 텍스트–이미지 쌍을 정렬하는 데 집중하고,
• 추론 시점에는 텍스트가 곧 분류기의 클래스 임베딩이 됩니다.
이 방식의 가장 큰 장점은,
새로운 클래스가 등장해도, 문장 하나만 추가하면 곧바로 분류가 가능하다는 점입니다.
🎤 발표 대본 — Slide #14~15: 실험 및 결과
CLIP은 단지 구조가 단순하거나 학습이 대규모였다는 것만으로 의미 있는 모델이 아닙니다.
가장 중요한 건, 실제로도 매우 강력한 성능을 보여줬다는 점입니다.
🔹 30개 이상의 벤치마크에서 실험 진행
CLIP은 총 30개 이상의 공개 벤치마크 태스크에서 실험을 진행했고,
그 결과는 다음과 같습니다.
• 기존 Visual N-Grams 모델: 11.5%
• CLIP (제로샷): 76.2%
무려 6배 이상 높은 정확도를 보여줍니다.
🔸 Figure 5: Fully supervised baseline과의 비교
이 그래프는 CLIP의 제로샷 분류 성능과
ResNet-50 기반 지도 학습 모델(linear probe) 을 비교한 것입니다.
• 초록색 막대: CLIP이 더 성능이 좋은 경우 (총 16개)
• 파란색 막대: CLIP이 불리했던 경우 (총 11개)
즉, 지도 학습 모델을 이긴 데이터셋이 절반을 넘습니다.
예를 들어,
• StanfordCars: +28.9%
• Country211: +23.2%
• Kinetics700: +14.5%
• 그리고 ImageNet조차도 +1.9%로 앞섰습니다.
🔸 왜 이렇게 강력했을까?
• CLIP은 웹에서 다양하게 수집된 문장과 이미지를 학습해서
특정 태스크에 overfit되지 않은 범용적인 표현을 배웠기 때문입니다.
• 즉, 학습된 지식은 단순한 ‘라벨 예측’이 아니라
세상을 설명하는 표현 학습에 가깝습니다.
그 결과, 지도 학습이 전혀 없는 상태에서도
OCR, 동작 인식, 위치 인식 등 다양한 태스크에 적용 가능했습니다.
🎤 발표 대본 — Slide #16: Prompt Engineering & 앙상블
CLIP은 구조나 학습 자체도 강력하지만,
사실 추론 시 문장을 어떻게 넣느냐만으로도 성능이 꽤나 달라질 수 있습니다.
이걸 Prompt Engineering, 즉 프롬프트 설계라고 합니다.
🔹 프롬프트 문장 하나만 바꿔도 성능이 달라진다
예를 들어,
• “A photo of a dog.”
• “A picture showing a dog.”
이 두 문장은 같은 의미를 갖지만, CLIP이 보는 유사도는 다릅니다.
실제로, 단지 이 문장을 바꾸는 것만으로도
ImageNet 정확도가 +1.3% 향상됩니다.
🔸 다양한 문장을 앙상블하면 더 좋다
그렇다면 아예 여러 가지 프롬프트를 준비해서
• 각각의 유사도를 모두 계산하고,
• 그 평균을 내거나 앙상블을 하면 어떨까요?
→ 실험 결과,
ImageNet 정확도가 추가로 +3.5% 향상되었고,
이것은 모델 크기를 4배 키운 것과 유사한 수준의 효과였습니다.
즉, 프롬프트만 잘 고쳐도
“더 빠르게, 더 싸게, 더 효율적으로” 성능을 올릴 수 있는 방법이라는 뜻이죠.
🔹 Figure 4: 성능 비교 그래프
오른쪽 그래프를 보면,
• 파란색은 아무 프롬프트 없이 클래스 이름만 사용한 경우
• 초록색은 프롬프트 엔지니어링과 앙상블을 모두 적용한 경우입니다.
특히 RN50x16 기준으로
5 point 상승이라는 의미 있는 차이를 보였습니다.
이 결과는 단순히 성능 향상을 넘어서,
“추론 단계에서도 사용자 조작을 통해 모델 성능을 끌어올릴 수 있다”는 가능성을 제시합니다.
🎤 발표 대본 — Slide #17: Representation Learning 평가
이번에는 CLIP이 얼마나 좋은 표현(embedding) 을 학습했는지를 평가한 결과를 소개드리겠습니다.
🔹 평가 방식: 선형 분류기(linear probe)
CLIP의 이미지 인코더에서 나온 임베딩을 고정한 채,
단순한 선형 분류기만 위에 올려서
다양한 태스크에 적용했을 때 성능을 측정했습니다.
즉, 복잡한 파인튜닝 없이,
표현력만으로 얼마나 범용적으로 전이 가능한가를 평가한 겁니다.
🔸 실험 결과 요약
그래프를 보면,
X축은 ImageNet에서의 성능,
Y축은 Transfer Task (전이 태스크) 에서의 성능입니다.
점선은 “ImageNet 성능 = Transfer 성능”인 기준선이고,
여기서 위쪽에 위치할수록 더 좋은 전이 성능을 가진다는 뜻입니다.
• 빨간 별: CLIP (ViT 기반)
• 빨간 동그라미: CLIP (ResNet 기반)
→ 모두 기준선보다 위쪽에 몰려 있습니다.
→ 이는 CLIP이 다른 모델보다 훨씬 강한 전이력을 가지고 있다는 증거입니다.
🔹 다른 모델들과의 비교
CLIP은 다음과 같은 기존 self-supervised 모델들보다 우수한 성능을 보였습니다.
• SimCLR
• MoCo
• BYOL
• EfficientNet + Noisy Student
이러한 결과는, CLIP이
단순히 하나의 태스크만 잘하는 모델이 아니라,
범용 표현 학습의 파운데이션 모델로 적합하다는 걸 시사합니다.
🎤 발표 대본 — Slide #18: 자연 분포 변화에 대한 견고성
모든 AI 모델은 훈련 데이터와 비슷한 환경에서는 잘 작동하지만,
분포가 살짝만 바뀌어도 성능이 크게 떨어지는 문제를 갖고 있습니다.
이를 distribution shift 문제라고 합니다.
CLIP은 이 문제에 대해서도 아주 강한 견고성을 보여주었습니다.
🔹 실험 대상
• ImageNet-A, ImageNet-R, ObjectNet 등
→ 기존 ImageNet에서 분포만 바뀐 테스트셋들입니다.
예를 들어,
• 이미지가 더 난잡하거나,
• 렌더링 스타일이 바뀌거나,
• 배경이 혼란스럽거나 하는 테스트셋들입니다.
🔸 실험 결과
• 기존 ResNet101 모델은 분포가 바뀌면 성능이 급격히 하락했습니다.
• 예: ImageNet-A 정확도 2.7%
• 반면, CLIP은 같은 환경에서
• 무려 77.1% 의 정확도를 기록했습니다.
→ +74.4% 성능 향상
→ 그 외에도 ImageNet-R, ObjectNet 등 다양한 분포 변화 상황에서
기존 모델 대비 최대 75% 향상된 성능을 보여주었습니다.
🔹 Figure 13 해석
왼쪽 그래프를 보시면,
• 검은 점선은 이상적인 견고한 모델 (y = x)
• 보라색 선이 CLIP
• 회색 선이 기존 모델입니다.
CLIP은 기존 모델보다 훨씬 더 이상적인 y=x에 가깝게 위치해 있습니다.
→ 이는 CLIP이 분포가 바뀌어도 성능이 잘 유지된다는 의미입니다.
오른쪽 표를 보면
‘바나나’ 클래스를 예로 들어,
다양한 분포에서 예측 성능이 어떻게 변화하는지 시각화해놨고요,
CLIP은 전반적으로 훨씬 안정된 예측을 보였습니다.
✅ 해석: CLIP은 허위 상관관계(spurious correlation)에 덜 민감하다
기존 모델은
“바나나는 항상 흰 배경에 있을 것”
“강아지는 잔디밭에 있을 것” 같은 허위 상관관계를 학습합니다.
하지만 CLIP은
• 자연어로 표현된 다양한 텍스트를 함께 학습했기 때문에,
• 더 일반적이고 의미 기반의 개념을 학습한 거죠.
그래서 분포가 바뀌어도
본질을 잃지 않고 예측을 유지할 수 있었습니다.
🎤 발표 대본 — Slide #19: 인간 vs CLIP 비교 실험
이번에는 CLIP의 분류 성능을 인간 평가자와 직접 비교한 실험입니다.
사용된 데이터셋은 Oxford Pets, 다양한 고양이와 개 품종으로 구성된 데이터셋이에요.
🔹 제로샷 기준 비교 결과
• 인간 평가자 (제로샷 기준): 57%
• CLIP (제로샷 기준): 93.5%
→ CLIP은 명시적 학습 없이도
인간보다 훨씬 더 높은 정확도를 기록했습니다.
🔸 표 분석 (Table 2)
• 인간 제로샷: 53.7%
• 인간 One-shot: 75.7%
• 인간 Two-shot: 75.7%
→ 주목할 점은, 인간은 학습 샘플을 한두 개만 봐도 성능이 급격히 향상됩니다.
→ 반면, CLIP은 학습 없이 이미 높은 수준에 도달해 있다는 것이 포인트예요.
그래프에서도 보이듯,
카테고리별 정확도를 보면
CLIP이 어려워하는 이미지들은 인간도 어려워합니다.
→ 즉, CLIP은 사람과 유사한 시각적 판단 기준을 학습했다고 해석할 수 있어요.
🎤 발표 대본 — Slide #20: 추가 실험 결과 (Test +)
지금까지 다양한 실험 결과들을 살펴봤는데요,
이번 슬라이드는 추가적으로 제시된 상세 결과들을 요약한 부분입니다.
🔹 왼쪽 표: Linear Probe 성능 비교 (27개 데이터셋)
이 표는 다양한 사전학습 모델들을 대상으로,
선형 분류기(linear probe) 를 이용해
총 27개 태스크에서의 성능을 정리한 것입니다.
• 표를 보시면, CLIP 모델이 굵은 글씨로 자주 등장하는데,
이는 CLIP이 해당 태스크에서 최고 성능을 기록했음을 의미합니다.
• 특히 ViT-L/14@336px 모델은 대부분의 태스크에서
state-of-the-art 수준의 표현력을 보여주고 있다는 걸 확인할 수 있습니다.
→ 즉, CLIP은 다양한 구조의 기존 모델들을 전반적으로 압도하고 있다는 증거입니다.
🔸 오른쪽 그림: 예측 시각화 (36개 태스크)
이 그림은 CLIP이 다양한 이미지에 대해
제로샷으로 어떤 텍스트 라벨을 예측했는지 시각화한 예시입니다.
• 초록색은 정답 라벨
• 파란색은 상위 5개 예측
• 주황색은 사용된 프롬프트 템플릿
예를 들어,
• 흑백 숫자 이미지에는 “the number seven”
• 교통 표지판은 “a stop sign” 등으로 정확하게 예측하고 있고요,
• 동물, 음식, 인물, 스포츠, 추상 개념까지 폭넓은 표현력을 보여주고 있습니다.
✅ 핵심 메시지
이러한 결과들을 종합하면,
CLIP은 단지 하나의 태스크가 아닌,
수십 개의 태스크에 동시에 강한 범용 모델이라는 걸 보여줍니다.
그리고 무엇보다 중요한 건,
어떠한 명시적 학습 없이, 단지 프롬프트만으로 이 성능을 달성했다는 점입니다.
🎤 발표 대본 — Slide #21: 결론 & Discussion
이제 마지막으로, CLIP 논문의 핵심 결론과 논의점을 정리해 보겠습니다.
🔹 CLIP의 핵심 가치
CLIP은 지금까지의 비전 모델들과는 접근 방식이 완전히 달랐습니다.
- 라벨 대신, 자연어 설명을 학습의 감독 신호로 사용
- 웹에서 수집한 4억 개 이미지-텍스트 쌍 을 통해 대규모 대조 학습 으로 사전학습
- 이 사전학습만으로도 다운스트림 태스크에 제로샷으로 적용 가능
- 별도의 파인튜닝 없이, 텍스트 프롬프트만 바꾸면 분류기가 재구성 됨
🔸 요약하면, CLIP은
"GPT가 NLP에서 했던 것을, 비전에서도 실현한 모델" 이라고 할 수 있습니다.
즉,
자연어를 통해 태스크를 정의하고,
사전학습된 범용 모델로 그 태스크를 수행하는 비전 파운데이션 모델 입니다.
CLIP은 “언어로 태스크를 정의하고 실행할 수 있는 시각 모델”이라는
완전히 새로운 패러다임 을 제시한 것입니다.
✅ 결론
이제는 더 이상 태스크마다 새로운 모델을 학습시키는 게 아니라,
> 하나의 범용 모델을 만들어놓고, 텍스트로 태스크를 정의해서 수행하는 시대 로 가고 있습니다.
CLIP은 그 미래를 실제로 보여준 대표적인 사례라고 할 수 있습니다.
🎤 발표 대본 — Slide #21: 결론 & Discussion
이제 마지막으로, CLIP 논문이 제시하는 의미, 한계, 그리고 향후 방향에 대해 정리하겠습니다.
⚠️ 주요 한계 요약
1. Fine-grained 또는 추상적인 태스크에 약함
예를 들어, 품종 세분화, 거리 추정, 의료 영상과 같은 고차원적인 인식에는 아직 부족합니다.
2. Few-shot 학습 최적화 부족
인간은 예시 1~2개만 봐도 빠르게 일반화하지만,
CLIP은 여전히 그런 적응력은 부족합니다.
3. 텍스트 분류기 구조의 제약
성능이 프롬프트 문장 구조에 따라 매우 민감하게 바뀝니다.
4. 편향 가능성
웹 기반 데이터로 학습되었기 때문에
사회적 편견, 감시, 차별, 민감 정보 노출 등의 이슈도 존재합니다.
5. 진정한 제로샷인가?
학습 데이터에 유사한 이미지가 포함되어 있었는지 완전한 검증이 어렵습니다.
진짜 제로샷을 주장하기 위해선 철저한 평가 세트 관리가 필요합니다.
🌍 사회적 함의 (Broader Impacts)
CLIP은 이제 누구든지 프롬프트만 설계하면 분류기를 만들 수 있는 시대를 열었습니다.
하지만 동시에,
• 오용 가능성도 열렸습니다.
감시, 정치적 편향, 편리한 인식 기반 차별 등…
따라서 앞으로는 단순히 모델 성능뿐 아니라
기술적 투명성, 정량적 책임성이 중요해질 것입니다.
🧠 향후 연구 방향 제안
• Few-shot 학습과 사전 지식 통합
→ 인간처럼 빠르게 적응할 수 있는 하이브리드 모델 설계
• 생성형 태스크로 확장
→ 예: 비전 QA, 이미지 캡셔닝, 문장 생성 등으로 구조 확장
• 언어 외 멀티모달 학습 통합
→ 오디오, 비디오 등 다양한 modality와의 통합 학습
• 편향 제거 및 윤리적 설계 가이드라인 마련
→ 프롬프트 조작으로 잘못된 판단이 나오지 않도록 설계 필요
🎤 발표 대본 — Slide #22: Discussion
마지막으로, 오늘 발표 내용을 바탕으로
함께 생각해볼 수 있는 세 가지 논의 질문을 준비해 봤습니다.
1. 왜 대조 학습(contrastive learning)이 자연어 감독에 효과적일까?
• 대조 학습은 이미지와 텍스트를 쌍으로 묶고,
정답은 가까이, 오답은 멀리 가게 학습시키는 방식입니다.
• 이 구조는 명시적 라벨이 없어도,
쌍으로서의 일치 여부만 가지고도 강력한 표현력을 학습할 수 있게 합니다.
• 자연어는 그 자체로 라벨 이상의 정보를 담고 있기 때문에,
대조 학습은 텍스트의 풍부한 의미 구조를 시각적으로 잘 반영할 수 있게 해 줍니다.
→ 단순 분류가 아니라, 의미 기반 매칭에 강한 구조이죠.
2. CLIP이 활용될 수 있는 분야에는 무엇이 있을까?
• 제로샷 분류: 라벨 없이 분류기가 필요한 상황 (예: 의료, 법률 등)
• 콘텐츠 필터링: 온라인 플랫폼에서 위험 이미지 식별
• 로봇 비전: 텍스트로 지시를 받아 상황을 이해하고 행동하는 로봇
• 멀티모달 검색: 텍스트로 이미지를 검색하거나, 반대로도 가능
• 미세 조정 없이도 실시간 적용이 필요한 분야
→ 상업적, 산업적 응용 가능성이 매우 넓습니다.
3. CLIP이 정말 “라벨 없는 세상”을 가능하게 만들었을까? 어느 수준까지?
• 부분적으로는 맞습니다.
CLIP은 많은 태스크에서 라벨 없이도 SOTA 수준의 성능을 보여줬고요.
• 하지만 아직도
• fine-grained 태스크
• 추상적 reasoning
• 도메인 특화 문제
에서는 한계가 분명히 존재합니다.
• 결국 “라벨 없는 세상”은 가능한 태스크의 영역을 넓혔다는 측면에서 의미 있고,
완전한 대체보다는 보완의 관점에서 바라보는 게 더 현실적입니다.
'Club|Project > Euron | AI,데이터분석 학회' 카테고리의 다른 글
디퓨전 DDPM: Denoising DiffusionProbabilistic Models 발표 정리 (0) | 2025.04.08 |
---|---|
✳️ Denoising Diffusion Probabilistic Models 인트로 리뷰 (0) | 2025.04.07 |
✳️ 유런 DQN 발표 정리 (0) | 2025.04.01 |
✳️[ Playing Atari with Deep Reinforcement Learning ] 논문 리뷰 (0) | 2025.03.30 |
🪼 강화 학습-마르코프 결정 과정 : 딥러닝 파이토치 교과서 (0) | 2025.03.28 |