나는 jay 언니를 믿는다
데이터 준비 및 전처리
- 목표: AI 모델 학습을 위한 텍스트 데이터셋을 수집하고 전처리 과정을 거쳐 데이터의 품질을 높임.
- 대화형 데이터, FAQ, 문서 데이터 등을 수집
- 사용하기 적합한 형태로 변환
- Hugging Face, Kaggle 등에서 적절한 데이터셋 수집.
- 데이터 전처리 파이프라인 설계 (텍스트 정규화, 토큰화, 라벨링 작업 등).
- 전처리된 데이터를 검토하고 학습에 적합한지 검증.
AI 모델 학습 및 파인튜닝
- 목표: 사전 학습된 모델(BERT, DistilBERT 등)을 기반으로 파인튜닝을 통해 대화형 AI 모델 구축.
- AI 모델이 주어진 태스크(대화 맥락 이해, 답변 예시 추천 등)에 맞게 최적화되도록 학습.
- Hugging Face Transformers 라이브러리를 활용하여 모델 불러오기 및 기본 학습 테스트.
- 데이터셋을 학습시키고 하이퍼파라미터 튜닝을 통해 성능 최적화.
- 모델 성능 평가(예: BLEU, F1 Score 등)를 통해 모델 품질 측정.
- 모델을 지속적으로 개선할 수 있는 반복적인 학습 및 피드백 반영.
백엔드 개발
- 목표: 백엔드 연결
- 풀스택 팀원과의 DB 연결
- Fast API를 통한 백엔드 구축
배포 설정
- 목표: AI 모델이 배포되고 운영될 클라우드 환경 설정
통합 테스트 및 디버깅
- 목표: 모든 모듈을 통합하여 실시간 대화의 흐름, 음성 인식 및 변환 과정, AI 모델의 답변 추천 기능을 테스트.
- 각 모듈 간의 호환성 및 오류 발생 여부 확인.
할 일:
- 실시간 통화 기능(음성-텍스트 변환, 텍스트-음성 변환) 테스트.
- 대화 맥락 이해 및 적절한 답변 예시 추천 테스트.
- 서버 로드 테스트 및 성능 최적화(다수의 사용자가 접속할 때도 안정적인 성능 유지).
성능 최적화 및 모니터링 시스템
- 목표: 성능 최적화를 통해 실시간 응답 속도를 개선하고, 안정적인 서비스 운영을 위한 모니터링 시스템 구축.
- AI 모델의 경량화 및 클라우드 비용 최적화 진행.
- ONNX Runtime을 활용하여 모델을 경량화하고 추론 속도를 높임.
- Redis를 활용한 캐싱 시스템 도입으로 실시간 데이터 처리 성능 향상.
- AWS CloudWatch, Prometheus를 통해 서버 상태, 모델 응답 시간, 에러 발생률 등을 실시간 모니터링.
시간 간격이 있는 여러 개의 세션에서 두 명의 참여자가 부여받은 페르소나와 대화 토픽을 바탕으로 자유로운 일상 대화 텍스트를 수집한 뒤 참여자 정보, 대화 주제, 대화방 정보, 시간 간격, 페르소나 정보, 대화 및 요약에 대한 라벨링을 통해 데이터셋을 구성
데이터의 5%는 주제와 관련된 질문-대답이 추가된 전문대화로 구성됨(2세션으로만 구축)
1차 결과물
다음주 화/수까지는 이거 게속 시도해보기
'✨ Club|Project > 카카오테크 부트캠프 | AI' 카테고리의 다른 글
🦜카부캠 흑백개발자 : 앵무말(Parrotalk) 기획 (3) | 2024.10.01 |
---|---|
🍍카부캠 18조 기획/AI계획 (4) | 2024.09.27 |
AI 과정 프로젝트 구현 공유회 (0) | 2024.09.27 |
🍍카부캠 18조 아이디어 (10) | 2024.09.25 |
주제 브레인스토밍 임시글 (0) | 2024.09.23 |