✳️ [GPT1: Improving Language Understanding by Generative Pre-Training] 논문 리뷰

시험 임박 기간ㅠ..

✳️ 논문 리뷰

자연어 이해(Natural Language Understanding, NLU)를 향상시키기 위해 언어 모델의 사전 학습(generative pre-training)과 과제별 미세 조정(discriminative fine-tuning)을 결합하는 접근 방식을 제안

대규모 비지도 텍스트 코퍼스를 기반으로 언어 모델을 먼저 사전 학습하고, 그 후 각 특정 작업에 대해 소규모 라벨된 데이터로 미세 조정을 수행함

기존의 각 작업별 모델 아키텍처에 의존하지 않고, 하나의 범용(transformer) 모델로 여러 NLP 과제를 동시에 해결하고자 함

범용(pre-trained) 언어 모델의 효과적 전이:
기존 task-specific 모델 대비, 한 번 학습된 transformer 기반 언어 모델을 여러 작업에 작은 수정으로 전이 가능하다는 것을 증명.
input transformation 설계:
다양한 작업(텍스트 추론, 질문 응답, 의미 유사성, 분류)에 맞게 구조화된 입력을 순차적 토큰 시퀀스로 변환하여 transformer가 처리할 수 있도록 함.
새로운 SOTA 달성:
12개 벤치마크 중 9개에서 기존 최고 성능을 넘어섬. 예를 들어, Story Cloze Test에서 +8.9%, RACE(질문 응답)에서 +5.7% 개선.
범용성 있는 모델 제안:
task-specific 아키텍처나 복잡한 파이프라인 없이 하나의 task-agnostic 모델로 다수의 NLP 작업을 해결.

데이터셋:
BooksCorpus로 사전학습, GLUE benchmark와 NLI, QA, Semantic Similarity, Classification task 데이터셋에서 평가.
아키텍처:
12-layer transformer decoder-only 모델, masked self-attention 사용.
결과 요약:
- Natural Language Inference: MNLI, SNLI, QNLI, SciTail 등에서 기존 SOTA 대비 최대 +5.8% 향상.
- Question Answering: RACE, Story Cloze Test에서 기존 대비 +5.7~+8.9% 성능 향상.
- Semantic Similarity: STS-B, MRPC, QQP에서 +1~+4.2% 개선.
- Classification: CoLA(문법성 판별) +10.4점 개선, SST-2(감정 분류)에서 91.3% accuracy.

✅ 강점

❗ 한계

언어 모델 사전 학습과 미세 조정을 결합한 최초의 transformer 기반 NLU 프레임워크로서, NLP 연구에서 전이 학습의 가능성을 대폭 확장시킨 의미 있는 연구

이후 등장한 BERT, GPT 시리즈 등 다양한 사전 학습 언어 모델의 기반 아이디어를 제시했으며, “하나의 큰 모델로 여러 작업 해결”이라는 패러다임을 정립했다는 점에서 가치가 크대

하지만 일부 task에선 데이터 규모에 따른 한계가 존재하고, 모델 크기와 연산량에 의존적이라는 점에서 practical deployment에는 후속 연구의 개선이 필요하대

✳️ [Rainbow: Combining Improvements in Deep Reinforcement Learning] 인트로 리뷰 (0)	2025.05.12
✳️ [PPO: Proximal Policy Optimization Algorithms] 인트로 리뷰 (1)	2025.05.05
❇️ BERT / ViT 발표 정리 (0)	2025.04.29
✳️ [ViT: An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale] 인트로 리뷰 (1)	2025.04.28
✳️ [BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding] 논문 리뷰 (0)	2025.04.26