성능이 개선되는 것을 보여줄 지표!
안되면 어떡하지,,)
🦜성능 검사 파이프라인 만들기
1) myModelPrompt 요청용 프롬프트 짜기
2) validation dataset을 이용해서 bert 베이스 모델에 요청 보내고 요청,답변 저장하기
3) LLMEvaluationPrompt 검증용 프롬프트 짜기
4) LLM에게 요청,답변 저장한 내용을 이용해 성능 검사 : 요청,검증 내용 저장하기
5) 통계 내기
+ 파인튜닝 이후 같은 일 반복 / 비교하기
🦜요청용 프롬프트 짜기
🦜베이스 모델에 요청, 답변 저장
🦜검증용 프롬프트 짜기
def make_LLM_evaluation_prompt(context, question, answer) :
LLM_evaluation_prompt = f"""
전화 응답 적합성 평가
아래 예시와 같이 통화 상황에서 상대방의 말에 대한 답변이 상황에 적합한지를 1,2,3,4,5,6,7,8,9,10의 숫자로 평가하시오.
(10: 매우 적합, 1: 전혀 부적합)
예시 1)
< 전화 통화 상황 >
A: 반갑습니다 #@소속#입니다 무엇을 도와드릴까요 B: 네 #@상품# 주문 취소하려고 합니다 A: 네 고객님 성함과 전화번호는 어떻게 되실까요 B: #@이름#이고 휴대폰은 #@전번#이에요
< 상대방의 말 >
네 고객님 #@상품# 구매하신 거로 확인되었습니다 취소하시겠습니까?
< 피평가자의 답변 >
네, 취소해주시면 감사하겠습니다.
[당신의 평가]
10
예시 2)
< 전화 통화 상황 >
A: 반갑습니다 #@소속#입니다 무엇을 도와드릴까요 B: 네 #@상품# 주문 취소하려고 합니다 A: 네 고객님 성함과 전화번호는 어떻게 되실까요 B: #@이름#이고 휴대폰은 #@전번#이에요
< 상대방의 말 >
네 고객님 #@상품# 구매하신 거로 확인되었습니다 취소하시겠습니까?
< 피평가자의 답변 >
집에 가는 길을 알고 싶어요.
[당신의 평가]
1
< 전화 통화 상황 >
{context}
< 상대방의 말 >
{question}
< 피평가자의 답변 >
{answer}
(반드시 답변을 숫자로만 할 것)
"""
return LLM_evaluation_prompt
few-shot을 이용
맘에드넹
프롬프트 완성
🦜LLM 성능 검사, 검증 내용 저장
🦜통계
'✨ Club|Project > 카카오테크 부트캠프 | AI' 카테고리의 다른 글
🦜카부캠 앵무말(Parrotalk) : 중간 발표 PPT + 카부캠 브이로그 (2) | 2024.11.12 |
---|---|
🌀React Native : 날씨 앱 만들기 (3) | 2024.11.07 |
🍳카부캠 흑백개발자 : AI 설계 / 회고 (0) | 2024.11.01 |
🍳카부캠 흑백개발자 : 스프린트 회고/요구사항 정의서/IA 구조도 (0) | 2024.10.27 |
🦜카부캠 앵무말(Parrotalk) : 초기 모델/데이터셋 선정 (0) | 2024.10.25 |