본문 바로가기
  • 컴공생의 공부 일기
  • 공부보단 일기에 가까운 것 같은
  • 블로그
Club|Project/카카오테크 부트캠프 | AI

💛카카오 부트캠프💛 2회차

by 정람지 2024. 7. 3.

앗싸 업로드 가능


TODO💛

- 출석체크 (시간 확인)✅

- exp 참여하기

- 사전 기술 테스트 보기✅

- 퇴실체크 (시간 확인)

 

- OT 자료 정리하기

- 1회차 강의 실습 하기

- 2회차 강의 실습 하기

- 개인 미션 하기 : 챗봇

- 팀 미션 하기

- 엘리스 챌린지 지원

- AI 회의

- 팀 회의


이론💛

 

측치(Missing Value): '값이 없는 것'을 의미

MCAR MAR MNAR

 

레이블 인코딩

원 핫 인코딩 - 차원

주제: 데이터의 활용 및 구현 II - 데이터 전처리 데이터 전처리 개요:

  • 원시 데이터를 분석 및 모델링에 적합하게 변환하는 과정
  • 데이터의 정제, 변환, 통합 등을 포함
  • 데이터 품질을 높여 신뢰성 있는 분석 가능

데이터 수집 후 전처리 과정:

  • 다양한 소스에서 데이터 수집 (OpenAPI, 웹크롤링 등)
  • 수집된 데이터는 대부분 정제가 필요
  • 초기 확인 및 분석을 통해 데이터 활용 극대화

데이터 타입별 전처리 방법:

  • 숫자형 데이터: 결측값 처리, 스케일링 및 정규화
  • 범주형 데이터: 결측값 처리, 레이블 인코딩
  • 날짜 및 시간 데이터: 형식 변환 및 추출
  • 텍스트 데이터: 텍스트 정제 및 벡터화

데이터 정제:

  • 결측값 처리: 결측값의 종류와 원인, 확인 방법, 처리 방법 (삭제, 대체 등)
  • 이상값 처리: 이상값의 정의와 탐지 방법, 처리 방법 (삭제, 대체 등)

데이터 변환:

  • 데이터 스케일링 및 정규화: 표준화와 정규화의 개념, 적용 방법 및 사례
  • 데이터 인코딩: 범주형 데이터 인코딩 (Label Encoding, One-Hot Encoding 등)
  • 날짜 및 시간 데이터 처리: 형식 변환 및 추출

데이터 통합:

  • 데이터 합치기 (Merge, Join): 공통된 키를 사용하여 데이터 간 결합
  • 데이터 집계 및 그룹화: 특정 열을 기준으로 요약 통계 계산
  • 데이터 변형 및 피벗: 데이터프레임의 형태 변경, 행과 열 변환

고급 데이터 전처리 기법:

  • 파생 변수 생성: 기존 데이터에서 새로운 변수 생성
  • 데이터 샘플링: 일부 데이터를 선택하여 분석 및 모델링
  • 차원 축소 기법 (PCA 등): 고차원 데이터를 저차원으로 변환하여 데이터의 복잡성 감소

데이터 전처리 최적화:

  • 전처리 작업의 자동화: 스크립트 및 파이프라인을 사용하여 전처리 작업 자동 실행
  • 대용량 데이터 처리: 분산 처리, 병렬 처리, 메모리 관리 등
  • 전처리 과정의 효율성 향상: 최적화된 알고리즘, 코딩 스타일 개선, 적절한 데이터 구조 사용

실습💛 은 오늘은 사전 기술 테스트

그래도 실습도 있다

 

🍋카카오 부트캠프🍋 2회차 실습 : kaggle의 데이터를 선정해 전처리 파이프라인 구축해보기

🍋 과제 KTB_Day2_GenAI.ipynbColab notebookcolab.research.google.com 🍋 예시 코드 구경 🍋 실습

junggoldchae-coding.tistory.com

그것이 리스트니까. 하다가 뒤에서는 예? 에? 네?


미션💛

팀원들이랑 이야기 먼저

오 진짜 똑같이생김


앨리스 챌린지

팀원들이랑 같이 해보려거

 

뉴팀스 팀원들이랑도 같이 해봐야겟따