🦜카부캠 앵무말(Parrotalk) : 성능 통계

Club|Project/카카오테크 부트캠프 | AI

🦜카부캠 앵무말(Parrotalk) : 성능 통계

정람지 2024. 12. 3. 20:57

아오! 왜 맛이 갔나 했네 클론하고 제발 디렉토리 들어가라...이짓을1e9번 했더니 code 파일에도 가짜 브랜치들이 어디서 생겨났다고...아니 .git 파일도 없는데 어째서?

재료

통계 목표

평균 (Mean): 각 모델의 평균 점수 계산
중앙값 (Median): 점수의 중간값 계산
분산 (Variance) / 표준편차 (Standard Deviation): 점수의 분포 정도를 확인
점수 차이 (Difference): 파인튜닝 모델 점수 - 베이스 모델 점수

점수 차이의 평균: 점수 차이가 얼마나 일관되게 개선되었는지 확인
점수 차이의 분포: 차이의 분산 및 표준편차 계산

통계

import json

file_paths = ["fineTuning/validate_data/base_model_validation.json",
              "fineTuning/validate_data/fineTuning_model_validation.json",
              "fineTuning/validate_data/gpt_model_validation.json"]

for file_path in file_paths:
  with open(file_path, "r", encoding="utf-8") as file:
    datas = json.load(file)
    scores = []
    for data in datas:
      scores.append(int(data["evaluation_score"]))
      
    # 평균 
    MEAN = sum(scores) / len(scores)

    # 중앙값
    scores.sort()
    MEDIAN = scores[len(scores)//2]

    # 분산
    VARIANCE = sum((x - MEAN) ** 2 for x in scores) / len(scores)

  print(f"{file_path}에 대한 결과:")
  print(f"평균 : {MEAN:.2f}")
  print(f"중앙값 : {MEDIAN:.2f}")
  print(f"분산 : {VARIANCE:.2f}")
  print()

fineTuning/validate_data/base_model_validation.json에 대한 결과: 평균 : 0.66 중앙값 : 0.00 분산 : 2.10 fineTuning/validate_data/gpt_model_validation.json에 대한 결과: 평균 : 8.88 중앙값 : 10.00 분산 : 3.51

룰루