Abstract
최근 연구들은 대규모 텍스트 코퍼스에 대한 사전 학습(pre-training) 후 특정 태스크에 대한 파인튜닝(fine-tuning)을 수행함으로써 다양한 자연어처리(NLP) 과제에서 큰 성능 향상을 이루었다. 이러한 방식은 보통 태스크에 독립적인 아키텍처를 사용하지만, 여전히 수천에서 수만 개의 예시가 포함된 태스크 전용 데이터셋이 필요하다는 한계가 있다. 반면, 인간은 보통 단 몇 개의 예시나 간단한 지시만으로도 새로운 언어 과제를 수행할 수 있다. 현재의 NLP 시스템은 이러한 능력을 대부분 갖추지 못하고 있다.
본 논문에서는 언어 모델의 규모를 확장하면 태스크에 특화되지 않은(few-shot) 상황에서도 성능이 크게 향상된다는 것을 보인다. 우리는 1,750억 개의 파라미터를 가진 오토리그레시브(autoregressive) 언어 모델인 GPT-3를 학습시켰으며, 이는 이전 비희소(non-sparse) 언어 모델 대비 10배 규모에 해당한다. GPT-3는 파인튜닝이나 그래디언트 업데이트 없이, 오직 텍스트 상호작용을 통해 태스크와 예시들을 주어지는 few-shot 설정 하에서만 적용된다.
GPT-3는 번역, 질문 응답, cloze 태스크 등 다양한 NLP 데이터셋에서 강력한 성능을 보이며, 단어 순서 섞기, 새로운 단어 사용, 3자리 산술 연산과 같은 즉석 추론 및 도메인 적응을 요구하는 과제들에서도 좋은 결과를 보여준다. 그러나 일부 데이터셋에서는 few-shot 성능이 여전히 부족하거나, 웹 기반 대규모 학습 데이터로 인한 방법론적 한계가 존재한다.
또한 GPT-3는 사람이 작성한 것과 구별하기 어려운 뉴스 기사 샘플을 생성할 수 있는 능력을 보여준다. 우리는 이러한 결과와 GPT-3의 전반적인 사회적 영향을 논의한다.
Introduction
최근 몇 년 동안 자연어 처리(NLP) 시스템은 사전학습(pre-trained) 언어 표현을 점점 더 유연하고 태스크에 독립적인 방식으로 다운스트림 과제에 활용하는 경향을 보여 왔다. 초기에 단일 계층의 단어 벡터(word vectors) 표현이 학습되어 태스크 전용 아키텍처에 입력되었고 [MCCD13, PSM14], 그 다음에는 문맥 정보를 가진 다층 RNN이 보다 강력한 표현을 형성하기 위해 사용되었다 [DL15, MBXS17, PNZtY18]. 그러나 이 방식 역시 태스크 전용 구조를 필요로 했다. 최근에는 사전학습된 recurrent 혹은 transformer 기반의 언어 모델들이 직접 파인튜닝되어, 태스크 전용 구조 없이도 다양한 과제에서 높은 성능을 내고 있다 [VSP+17, RNSS18, DCLT18, HR18].
이러한 파라다임은 독해(reading comprehension), 질의응답(question answering), 텍스트 함의(textual entailment) 등 여러 어려운 NLP 과제에서 눈에 띄는 성과를 내왔으며, 새로운 아키텍처와 알고리즘이 추가되면서 성능이 지속적으로 향상되고 있다 [RSR+19, LOG+19, YDY+19, LCG+19]. 그러나 이 방식의 중요한 한계는, 아키텍처 자체는 태스크에 독립적이지만, 여전히 특정 태스크에 대한 대규모 파인튜닝 데이터셋이 필요하다는 점이다. 일반적으로 한 태스크에서 우수한 성능을 내기 위해서는 수천에서 수십만 개의 라벨이 달린 예제가 필요하다. 이 제한을 없애는 것은 여러 이유로 바람직하다.
첫째, 실용적 관점에서, 새로운 태스크마다 대규모 라벨링된 데이터셋이 필요하다는 점은 언어 모델의 활용 범위를 제한한다. 맞춤법 교정, 추상 개념 예시 생성, 짧은 이야기 비평 등 수많은 다양한 언어 과제가 존재하지만, 이들 대부분은 큰 규모의 감독 학습 데이터셋을 만들기 어렵다.
둘째, 모델이 더 복잡해질수록 학습 데이터의 편향된 상관관계에 의존할 가능성이 커지며, 이는 학습-파인튜닝 방식에서의 일반화 능력을 해칠 수 있다. 예를 들어, 더 큰 모델이 반드시 분포 바깥(out-of-distribution)에서 더 잘 일반화하는 것은 아니다 [HLW+20]. 실제로 모델이 학습 데이터에 과도하게 특화되어 본래 과제에 대한 성능보다 벤치마크 수치가 과대평가되는 경우도 있다 [GSL+18, NK19].
셋째, 인간은 대부분의 언어 과제를 학습 데이터 없이도 수행할 수 있다. 예를 들어 “이 문장이 행복한 내용인지 슬픈 내용인지 알려줘”라는 짧은 지시나 “다음은 용감한 행동의 예시 두 개입니다. 세 번째 예시를 말해보세요”와 같은 예시만으로도 과제를 수행할 수 있다. 이는 단순히 기술적 한계를 넘어, 인간과 유사한 적응성과 다재다능함을 NLP 시스템이 갖추기 위해 반드시 해결해야 할 문제다.
이러한 문제를 해결할 수 있는 하나의 가능성은 메타러닝(meta-learning)이다. 언어 모델에서의 메타러닝이란, 모델이 학습 중에 광범위한 패턴 인식 능력을 습득하고, 추론 시점에는 이를 기반으로 빠르게 새로운 과제에 적응하거나 그 과제를 인식해 수행하는 것을 의미한다(그림 1.1 참고). 최근 연구들은 이 접근을 in-context learning이라 부르며, 사전학습된 언어 모델의 입력 텍스트 안에 태스크 지시나 몇 개의 예제를 포함시켜, 모델이 이를 조건으로 다음 출력을 예측하게 만든다.
이러한 접근은 초기에는 유망해 보였지만, 여전히 fine-tuning 기반의 성능에는 미치지 못했다. 예를 들어 [RWC+19]는 Natural Questions 데이터셋에서 단 4%, CoQA에서는 F1 점수 55로 기존 SOTA보다 35포인트 이상 낮은 결과를 보였다. 즉, 실용적으로 적용 가능한 수준의 메타러닝을 구현하려면 상당한 개선이 필요하다.
최근의 또 다른 트렌드는 모델 용량 확장이다. Transformer 언어 모델의 파라미터 수는 수년간 빠르게 증가해 왔다: 1억 → 3억 → 15억 → 80억 → 170억 파라미터까지. 이와 함께 많은 NLP 과제에서 성능이 향상되었고, 여러 연구는 모델 용량이 클수록 loss가 부드럽게 감소한다는 점을 보여주었다 [KMH+20]. 따라서 in-context learning도 규모에 따라 강력한 성능 향상을 보일 가능성이 있다.
Introduction 리뷰
✅ 1. NLP 패러다임의 변화
- NLP는 과거 단어 벡터 → RNN → Transformer 기반 사전학습 모델로 진화해 왔다.
- 최근엔 BERT, GPT 같은 모델이 태스크 전용 아키텍처 없이도 파인튜닝만으로 다양한 태스크 수행 가능.
❗ 한계점
- 여전히 수천~수만 개의 라벨링 데이터가 필요하며, 이는 실제 응용에서 확장성과 유연성에 한계를 준다.
- 파인튜닝된 모델은 특정 데이터 분포에 과적합될 수 있고, 일반화 능력이 부족하다.
- 인간은 단 몇 개의 예시나 자연어 지시만으로도 다양한 언어 과제를 수행할 수 있는데, 현재 모델은 그 수준에 도달하지 못함.
💡 핵심 개념 도입
- 이를 극복하기 위해 메타러닝(meta-learning) 또는 in-context learning이 주목받는다.
- 모델이 다양한 태스크 패턴을 사전학습 중에 내부화하고,
- 추론 시점에 몇 개의 예시만 보고도 빠르게 적응하거나 태스크를 인식하는 방식.
- 이 방식은 파라미터 업데이트 없이 문맥(context)만으로 태스크 수행 가능.
📈 모델 크기의 중요성
- 최근 추세는 언어 모델의 대규모화.
- 1억 → 1700억 파라미터까지 확장.
- 모델 용량이 커질수록 일관되게 성능 향상 (loss 감소 등).
- 가설: in-context learning 능력도 모델 크기와 함께 향상될 것.
인간처럼 “설명 몇 개만 보고 새로운 태스크를 바로 수행”하는 능력은 기존 fine-tuning 기반 접근으로는 어려움이 많음. 대규모 언어 모델의 in-context learning 능력이 이를 실현할 가능성을 보여줌.