본문 바로가기
  • 컴공생의 공부 일기
  • 공부보단 일기에 가까운 것 같은
  • 블로그
🤖 AI/AI

🔬sLLM 학습하기 :Text2SQL 데이터셋

by 정람지 2024. 10. 24.

아그리고

마라톤ㅜㅜ다 떨어짐

대신 노근씨가 열심히 플랭크해줌


LM을 활용한 실전 AI 애플리케이션 개발 / 허정준


자연어 요청으로부터 적합한 SQL을 생성

 

실습에서 사용할 합성 데이터셋 

모델이 잘 학습되고 있는지 평가하는 데 사용되는 평가 파이프라인 

이후 성능 향상을 위한 다양한 조정

transformers==4.40.1:
Hugging Face의 Transformer 모델을 제공하는 패키지
bitsandbytes==0.43.1:
저수준의 최적화된 연산을 지원하는데, GPU 메모리 최적화 등에 사용
accelerate==0.29.3:
멀티 GPU, TPU 분산 학습을 지원하는 패키지
datasets==2.19.0:
Hugging Face의 데이터셋 라이브러리로, 다양한 공개 데이터셋을 쉽게 다운로드하고 사용
tiktoken==0.6.0:
토큰화를 지원하는 패키지로, 주로 LLM(대형 언어 모델)과 관련해 사용
huggingface_hub==0.22.2:
Hugging Face Hub와 연동을 지원하는 패키지
autotrain-advanced==0.7.77:
Hugging Face AutoTrain에서 사용되는 고급 툴셋을 포함하는 패키지

-qqq:
설치 과정에서 불필요한 로그 출력을 최소화하는 역할

🔬Text2SQL 데이터셋

직접 합성 데이터셋 만들어 보기

 

ex) WikiSQL, Spider

"데이터베이스 정보 + 요청사항" 필요

https://huggingface.co/datasets/Salesforce/wikisql

 

Salesforce/wikisql · Datasets at Hugging Face

The viewer is disabled because this dataset repo requires arbitrary Python code execution. Please consider removing the loading script and relying on automated data support (you can use convert_to_parquet from the datasets library). If this is not possible

huggingface.co

=> 요청사항이 영어라서 한국어에 적합하지 않음


한국어 데이터셋

자연어 기반 질의(NL2SQL) 검색 생성 데이터

 

AI-Hub

샘플 데이터 ? ※샘플데이터는 데이터의 이해를 돕기 위해 별도로 가공하여 제공하는 정보로써 원본 데이터와 차이가 있을 수 있으며, 데이터에 따라서 민감한 정보는 일부 마스킹(*) 처리가 되

www.aihub.or.kr

gpt 생성

 

shangrilar/ko_text2sql · Datasets at Hugging Face

SELECT * FROM (SELECT player_id, username, email, date_joined, SUBSTRING_INDEX(email, '@', -1) as domain, DENSE_RANK() OVER (PARTITION BY SUBSTRING_INDEX(email, '@', -1) ORDER BY date_joined DESC) AS rank_domain FROM players) AS domain_ranked WHERE rank_do

huggingface.co