본문 바로가기
  • 컴공생의 공부 일기
  • 공부보단 일기에 가까운 것 같은
  • 블로그
🤖 AI/AI

🔬LLM 운영하기 : LLM 평가

by 정람지 2025. 2. 7.

LLM을 활용한 실전 AI 애플리케이션 개발

- 허정준


🗃️ LLM 평가하기

모델이 개선됐나?

모델 배포해도 되나?

모델을 재학습해야 하나?


🥞 정량적 지표를 통한 평가

 

< 테스트 생성 작업 평가에 사용되는 대표적인 세 가지 정량 지표 >

 

BLEU ( Bilingual Evaluation Understudy Score )

: 기계 번역 결과와 사람이 번역한 결과의 유사도 측정

- N-gram 기반 정밀도 분석

 

ROUGE (Recall-Oriented Understandy for Gisting Evaluation )

: 기계 요약 결과와 사람이 요약한 결과의 유사도 측정

- N-gram 기반 중복도 분석

 

Perplexity

: 모델이 새로운 단어를 생성할 때의 불확실성 수치화

- 낮을수록 좋음

 

 

=> 질적인 측면의 평가 ( 유창성, 문법적 오류, 창의성 등)의 한계

=> 사람의 주관적 판단과 불일치할 가능성

=> n 그램 매칭 의존 ( 단어 순서, 문장 구조 취약 )


🥞 벤치마크 데이터셋을 통한 평가

위의 세 가지 지표는 데이터셋이 중요

 

벤치마크 데이터셋

: 모델의 성능을 비교하기 위해 공통으로 사용하는 데이터셋

 

 

 

< 유명 벤치마크 데이터셋 4개 >

 

ARC : 4지선다 문제의 정답 맞히기

HellaSwag : 4지선다 다음에 올 문장 맞히기

MMLU : 4지선다 과학 인문학 수학 공학 문제

TruthfulQA : 신뢰할 수 있는 모델인지 확인하기 위한 데이터셋

+

BIG-bench

Winogrande

GSM8k

 

 

 

다양한 형태의 데이터셋.. 각각 평가 수행 불편

=> 

Im-evaluation-harness 깃허브

일관된 형태로 데이터셋 평가를 수행할 수 있음

 

GitHub - EleutherAI/lm-evaluation-harness: A framework for few-shot evaluation of language models.

A framework for few-shot evaluation of language models. - EleutherAI/lm-evaluation-harness

github.com

 

한국정보화진흥원 + 업스테이지

한국어 LLM 리더보드 평가 데이터셋

 

w&B

호랑이 데이터셋

 

 


🥞 사람을 통한 평가

별도의 평가자를 두는 경우도

 

A/B 테스트

 

시간이 오래 

비용이 많이


🥞 LLM을 통한 평가

사람의 요청에 어떻게 대응하는지?

= > 멀티 턴 질문 데이터 사용

 

MT-Bench 멀티 턴 질문 데이터

챗봇 아레나 데이터


🥞 RAG 평가

Rag 성능도 중요!!

 

 

 

< Rag를 평가하는 세 가지 지표 >

 

신뢰성 faithfulness

: 생성된 응답이 검색된 맥락 데이터에 얼마나 사실적으로 부합하는가?

 

답변 관련성 answer relevancy

: 생성된 답변이 요청과 얼마나 관련성이 있는가?

 

맥락 관련성 context relevancy

: 검색 결과인 맥락 데이터가 요청과 얼마나 관련 있는가?

 

<평가를 위해 필요한 데이터셋 형식>

질문 / 생성된 답변 / 검색된 맥락 데이터 / 실제 정답