본문 바로가기
  • 컴공생의 공부 일기
  • 공부보단 일기에 가까운 것 같은
  • 블로그
Club|Project/카카오테크 부트캠프 | AI

🦜카부캠 앵무말(Parrotalk) : 검증 데이터 정제

by 정람지 2024. 12. 1.

바야흐로 겨울이오.

계절이 가고 오는 시기면 으레 겪는 병이 있소이다.

병증이 너무 깊어,,,,ㄱㅡ만 거지가


응악아

끙끙lfs에 대한 악몽이 있어서 그건 안 쓰고 싶은데

..

헌데 대안이 없지 않은가

 

DK..

아 이것도 용량이 안 되네..

1GB밖에 안 줘?

다들 유튜브를 본받으란 말이야

 

 

그냥 언트래킹 하고,,,

push

끼약

몸이,,,좋으면 머리가 고생하지 않는다

그냥 새로 클론하고 result 빼고 add해벙려

어휴!!!드디어

lfs 다시 쓰면 웹툰작가 전향함

으! 이 한영바꾸기지옥우분투운영체제에서 빨리 탈출해야겠어

왜 마우스 스크롤 방향도 다른 거야

컨트롤 커맨드 위치 macos 우분투 윈도우 그리고 키보드별로도 다 다른 거 진짜 싸우고 싶네

으악 뭐지 욕해서 미안해요


맥북무사회귀


검증 데이터 정리

GPT-4o API의 가격

입력 토큰 1,000개당 $0.03

출력 토큰 1,000개당 $0.06

음.. 데이터. 한 개당 토큰 530개 정도? 500이라고 치면


출력은 숫자 하나니까 그냥 없다고 봐도 무방하고

200개면

100000 토큰 

$3 정도? 

4000원 정도?

끙...

 

3500개 정도 있는데

섞어서 200개 정도 파일로 하나 만들어야겠다

 

 

 

os.listdir

지정된 폴더에 있는 모든 파일과 폴더의 이름을 리스트로 반환

 

endswith()

문자열이 특정 접미사로 끝나는지 확인하는 메서드

필터링 역할 수행

 

with ... as

 

파일을 열거나, 리소스를 사용한 후 자동으로 정리(닫기)하기 위해 사용되는 구문

with 블록이 끝나면 파일이 자동으로 닫힘

 

 

json.load()

JSON 파일을 Python의 데이터 구조(예: 딕셔너리, 리스트 등)로 변환하는 메서드

 

배열.extend()

한 배열의 끝에 다른 배열의 요소를 추가

습관적 append 큰일 날 뻔~

 

json.dump(데이터 배열, file, ensure_ascii=False, indent=4)

 

 

Python 데이터 구조(예: 딕셔너리, 리스트)를 JSON 형식의 문자열로 변환하고 파일에 저장

  • ensure_ascii = False: 비ASCII 문자를 그대로 저장 (예: 한글 지원)
  • indent = 4: JSON 데이터를 4칸 들여쓰기로 정렬하여 저장
import os
import json

folder_path = "fineTuning/data/2.Validation/labeled_data"

fixed_data = []
 
for file_name in os.listdir(folder_path):
    file_path = os.path.join(folder_path, file_name)
    with open(file_path, "r", encoding="utf-8") as file:
        data = json.load(file)
        # 20개 파일, 200개 데이터 목표, 한 파일당 10개씩 뽑기
        cutted_data = data[:10]
        fixed_data.extend(cutted_data)

output_file = "cutted_validation_data.json"
with open(output_file, "w", encoding="utf-8") as file:
    json.dump(fixed_data, file, ensure_ascii=False, indent=4)

 

ㅠㅠ오류

 

if file_name.endswith(".json"):

추가했더니 잘 됨

뭐지? 디렉토리 안에 json파일밖에 없는데?

 

20개 파일 중에 이상한 게 있나 len()찍어봐도

200개 잘 들어가 있음

뭐지...

command shift .  숨겨진 파일도 없는데

 

아머지...

찾았다!!!

아 .DS_Store 뭐냐

맥북도 우우다

command shift . 해도 안 나왔지? 

생각해보니까 우분투에서는 숨겨진 파일 보기 했을 때 여기서 봤던 것도 같고

 

os 무승부 판결...