본문 바로가기
✨ Club|Project/카카오테크 부트캠프 | AI

🦜카부캠 흑백개발자 : 앵무말(Parrotalk) AI 계획

by 정람지 2024. 10. 15.

아침마다 뛰겟다 작심1일차

나는 jay 언니를 믿는다


데이터 준비 및 전처리

  • 목표: AI 모델 학습을 위한 텍스트 데이터셋을 수집하고 전처리 과정을 거쳐 데이터의 품질을 높임.
    • 대화형 데이터, FAQ, 문서 데이터 등을 수집
    • 사용하기 적합한 형태로 변환
  • Hugging Face, Kaggle 등에서 적절한 데이터셋 수집.
  • 데이터 전처리 파이프라인 설계 (텍스트 정규화, 토큰화, 라벨링 작업 등).
  • 전처리된 데이터를 검토하고 학습에 적합한지 검증.

AI 모델 학습 및 파인튜닝

  • 목표: 사전 학습된 모델(BERT, DistilBERT 등)을 기반으로 파인튜닝을 통해 대화형 AI 모델 구축.
    • AI 모델이 주어진 태스크(대화 맥락 이해, 답변 예시 추천 등)에 맞게 최적화되도록 학습.
  • Hugging Face Transformers 라이브러리를 활용하여 모델 불러오기 및 기본 학습 테스트.
  • 데이터셋을 학습시키고 하이퍼파라미터 튜닝을 통해 성능 최적화.
  • 모델 성능 평가(예: BLEU, F1 Score 등)를 통해 모델 품질 측정.
  • 모델을 지속적으로 개선할 수 있는 반복적인 학습 및 피드백 반영.

백엔드 개발

  • 목표: 백엔드 연결
  • 풀스택 팀원과의 DB 연결
  • Fast API를 통한 백엔드 구축

배포 설정

  • 목표: AI 모델이 배포되고 운영될 클라우드 환경 설정

통합 테스트 및 디버깅

  • 목표: 모든 모듈을 통합하여 실시간 대화의 흐름, 음성 인식 및 변환 과정, AI 모델의 답변 추천 기능을 테스트.
    • 각 모듈 간의 호환성 및 오류 발생 여부 확인.

할 일:

  • 실시간 통화 기능(음성-텍스트 변환, 텍스트-음성 변환) 테스트.
  • 대화 맥락 이해 및 적절한 답변 예시 추천 테스트.
  • 서버 로드 테스트 및 성능 최적화(다수의 사용자가 접속할 때도 안정적인 성능 유지).

성능 최적화 및 모니터링 시스템 

  • 목표: 성능 최적화를 통해 실시간 응답 속도를 개선하고, 안정적인 서비스 운영을 위한 모니터링 시스템 구축.
    • AI 모델의 경량화 및 클라우드 비용 최적화 진행.
  • ONNX Runtime을 활용하여 모델을 경량화하고 추론 속도를 높임.
  • Redis를 활용한 캐싱 시스템 도입으로 실시간 데이터 처리 성능 향상.
  • AWS CloudWatch, Prometheus를 통해 서버 상태, 모델 응답 시간, 에러 발생률 등을 실시간 모니터링.

 

 

AI-Hub

샘플 데이터 ? ※샘플데이터는 데이터의 이해를 돕기 위해 별도로 가공하여 제공하는 정보로써 원본 데이터와 차이가 있을 수 있으며, 데이터에 따라서 민감한 정보는 일부 마스킹(*) 처리가 되

www.aihub.or.kr

시간 간격이 있는 여러 개의 세션에서 두 명의 참여자가 부여받은 페르소나와 대화 토픽을 바탕으로 자유로운 일상 대화 텍스트를 수집한 뒤 참여자 정보, 대화 주제, 대화방 정보, 시간 간격, 페르소나 정보, 대화 및 요약에 대한 라벨링을 통해 데이터셋을 구성
데이터의 5%는 주제와 관련된 질문-대답이 추가된 전문대화로 구성됨(2세션으로만 구축)

 

AI 모델 환경 설치가이드.pdf
0.42MB

 

 

 

1차 결과물 

다음주 화/수까지는 이거 게속 시도해보기