LLM을 활용한 실전 AI 애플리케이션 개발 / 허정준
🔬언어 모델이 챗GPT가 되기까지
딥러닝 기반 언어 모델 -> LLM -> 대화가 가능한 챗 GPT
RNN에서 트랜스포머 아키텍처로
시퀀스 : 길이가 다양한 데이터의 형태
모델 아키텍처 : 딥러닝 모델이 가지는 구조 (순환신경망/트랜스포머 등)
RNN - 텍스트 생성 방법
"잠재 상태"에 들어오는 정보를 압축하여 저장 (순차적인 처리)
잠재 상태를 통해 맥락을 파악하여 다음 단어 예상
- 들어오는 입력이 길수록 앞의 정보가 희석되는 단점
:효율적/성능 낮음
트랜스포머 아키텍처 텍스트 생성 방법
들어오는 모든 맥락 데이터를 참조하여 다음 단어 예상(병렬적인 처리)
- 들어오는 입력이 길수록 메모리 사용량과 소요 시간이 길어짐 => 무겁고 비효율적인 연산
- 비효율적 / 성능 높음
모델 크기와 성능의 관계
모델과 학습 데이터셋의 크기를 키우는 것만으로도 큰 성장이 가능
- 학습 데이터의 크기가 최대 모델 크기의 상한.
손실 압축: 공통되고 중요한 패턴 남기기
챗 GPT의 등장
gpt3(사용자가 한 말 다음의 문장 생성) -> 챗 지피티 ( 사용자의 요청 해결 문장 생성)
지도 미세 조정(supervised fine-tuning)
: 언어모델링으로 사전 학습한 모델을 지시 데이터셋으로 추가 학습하는 것
지시 데이터셋(instruction dataset)
: 사용자가 요청/지시한 사항 - 응답을 정리한 데이터셋
RLHF(reinforcement learning from human feedback)
: 선호 데이터셋(preference dataset/사용자가 더 선호하는 답변) 으로 LLM의 답변을 평가하는 리워드 모델(reward model)로 더 높은 점수를 받을 수 있도록 강화 학습(reinforce learning)
정렬(alignment)
: 답변을 사용자의 요청 의도에 맞추는 것
'🤖 AI > AI' 카테고리의 다른 글
🔬LLM 지도 : 트랜스포머 아키텍처 (0) | 2024.09.26 |
---|---|
🔬LLM 지도 : LLM 애플리케이션의 시대 (3) | 2024.09.25 |
🔬LLM 지도 : 딥러닝과 언어 모델링 (0) | 2024.09.23 |
태 대학 보내기 - 📐 embedding (0) | 2024.06.15 |
🦙LlamaIndex 써보기 (0) | 2024.05.18 |