아그리고
마라톤ㅜㅜ다 떨어짐
LM을 활용한 실전 AI 애플리케이션 개발 / 허정준
자연어 요청으로부터 적합한 SQL을 생성
실습에서 사용할 합성 데이터셋
모델이 잘 학습되고 있는지 평가하는 데 사용되는 평가 파이프라인
이후 성능 향상을 위한 다양한 조정
transformers==4.40.1:
Hugging Face의 Transformer 모델을 제공하는 패키지
bitsandbytes==0.43.1:
저수준의 최적화된 연산을 지원하는데, GPU 메모리 최적화 등에 사용
accelerate==0.29.3:
멀티 GPU, TPU 분산 학습을 지원하는 패키지
datasets==2.19.0:
Hugging Face의 데이터셋 라이브러리로, 다양한 공개 데이터셋을 쉽게 다운로드하고 사용
tiktoken==0.6.0:
토큰화를 지원하는 패키지로, 주로 LLM(대형 언어 모델)과 관련해 사용
huggingface_hub==0.22.2:
Hugging Face Hub와 연동을 지원하는 패키지
autotrain-advanced==0.7.77:
Hugging Face AutoTrain에서 사용되는 고급 툴셋을 포함하는 패키지
-qqq:
설치 과정에서 불필요한 로그 출력을 최소화하는 역할
🔬Text2SQL 데이터셋
직접 합성 데이터셋 만들어 보기
ex) WikiSQL, Spider
"데이터베이스 정보 + 요청사항" 필요
https://huggingface.co/datasets/Salesforce/wikisql
Salesforce/wikisql · Datasets at Hugging Face
The viewer is disabled because this dataset repo requires arbitrary Python code execution. Please consider removing the loading script and relying on automated data support (you can use convert_to_parquet from the datasets library). If this is not possible
huggingface.co
=> 요청사항이 영어라서 한국어에 적합하지 않음
한국어 데이터셋
자연어 기반 질의(NL2SQL) 검색 생성 데이터
AI-Hub
샘플 데이터 ? ※샘플데이터는 데이터의 이해를 돕기 위해 별도로 가공하여 제공하는 정보로써 원본 데이터와 차이가 있을 수 있으며, 데이터에 따라서 민감한 정보는 일부 마스킹(*) 처리가 되
www.aihub.or.kr
gpt 생성
shangrilar/ko_text2sql · Datasets at Hugging Face
SELECT * FROM (SELECT player_id, username, email, date_joined, SUBSTRING_INDEX(email, '@', -1) as domain, DENSE_RANK() OVER (PARTITION BY SUBSTRING_INDEX(email, '@', -1) ORDER BY date_joined DESC) AS rank_domain FROM players) AS domain_ranked WHERE rank_do
huggingface.co
'🤖 AI > AI' 카테고리의 다른 글
🔬sLLM 학습하기 :미세 조정(fine-tuning) ing (2) | 2024.10.24 |
---|---|
🔬sLLM 학습하기 : 성능 평가 파이프라인 (0) | 2024.10.24 |
🦿딥러닝 실전 : Data Loader (1) | 2024.10.17 |
🦿딥러닝 실전 : 파이토치 입문 (0) | 2024.10.15 |
🦿딥러닝 개념 : 여러 가지 학습 방법과 XAI (2) | 2024.10.14 |