LLM을 활용한 실전 AI 애플리케이션 개발
- 허정준
🗃️ LLM 평가하기
모델이 개선됐나?
모델 배포해도 되나?
모델을 재학습해야 하나?
🥞 정량적 지표를 통한 평가
< 테스트 생성 작업 평가에 사용되는 대표적인 세 가지 정량 지표 >
BLEU ( Bilingual Evaluation Understudy Score )
: 기계 번역 결과와 사람이 번역한 결과의 유사도 측정
- N-gram 기반 정밀도 분석
ROUGE (Recall-Oriented Understandy for Gisting Evaluation )
: 기계 요약 결과와 사람이 요약한 결과의 유사도 측정
- N-gram 기반 중복도 분석
Perplexity
: 모델이 새로운 단어를 생성할 때의 불확실성 수치화
- 낮을수록 좋음
=> 질적인 측면의 평가 ( 유창성, 문법적 오류, 창의성 등)의 한계
=> 사람의 주관적 판단과 불일치할 가능성
=> n 그램 매칭 의존 ( 단어 순서, 문장 구조 취약 )
🥞 벤치마크 데이터셋을 통한 평가
위의 세 가지 지표는 데이터셋이 중요
벤치마크 데이터셋
: 모델의 성능을 비교하기 위해 공통으로 사용하는 데이터셋
< 유명 벤치마크 데이터셋 4개 >
ARC : 4지선다 문제의 정답 맞히기
HellaSwag : 4지선다 다음에 올 문장 맞히기
MMLU : 4지선다 과학 인문학 수학 공학 문제
TruthfulQA : 신뢰할 수 있는 모델인지 확인하기 위한 데이터셋
+
BIG-bench
Winogrande
GSM8k
다양한 형태의 데이터셋.. 각각 평가 수행 불편
=>
Im-evaluation-harness 깃허브
일관된 형태로 데이터셋 평가를 수행할 수 있음
GitHub - EleutherAI/lm-evaluation-harness: A framework for few-shot evaluation of language models.
A framework for few-shot evaluation of language models. - EleutherAI/lm-evaluation-harness
github.com
한국정보화진흥원 + 업스테이지
한국어 LLM 리더보드 평가 데이터셋
w&B
호랑이 데이터셋
🥞 사람을 통한 평가
별도의 평가자를 두는 경우도
A/B 테스트
시간이 오래
비용이 많이
🥞 LLM을 통한 평가
사람의 요청에 어떻게 대응하는지?
= > 멀티 턴 질문 데이터 사용
MT-Bench 멀티 턴 질문 데이터
챗봇 아레나 데이터
🥞 RAG 평가
Rag 성능도 중요!!
< Rag를 평가하는 세 가지 지표 >
신뢰성 faithfulness
: 생성된 응답이 검색된 맥락 데이터에 얼마나 사실적으로 부합하는가?
답변 관련성 answer relevancy
: 생성된 답변이 요청과 얼마나 관련성이 있는가?
맥락 관련성 context relevancy
: 검색 결과인 맥락 데이터가 요청과 얼마나 관련 있는가?
<평가를 위해 필요한 데이터셋 형식>
질문 / 생성된 답변 / 검색된 맥락 데이터 / 실제 정답
'🤖 AI > AI' 카테고리의 다른 글
🎠 AutoGen 공식문서 following : intro, model, messages, agents, Teams (0) | 2025.02.10 |
---|---|
🧉 AGI / Test-time Scaling : Reasoning (0) | 2025.02.07 |
🔬LLM 운영하기 : MLOps, LLMOps (0) | 2025.02.07 |
🔬벡터 데이터베이스로 확장하기 : 파인콘 이용 벡터/멀티 모달 검색 RAG 구현하기 (0) | 2025.02.06 |
🔬벡터 데이터베이스로 확장하기 : ANN, NSW, HNSW (0) | 2025.02.06 |