TODO💛
- 출석체크 (시간 확인)✅
- exp 참여하기
- 사전 기술 테스트 보기✅
- 퇴실체크 (시간 확인)
- OT 자료 정리하기
- 1회차 강의 실습 하기
- 2회차 강의 실습 하기
- 개인 미션 하기 : 챗봇
- 팀 미션 하기
- 엘리스 챌린지 지원
- AI 회의
- 팀 회의
이론💛
측치(Missing Value): '값이 없는 것'을 의미
MCAR MAR MNAR
레이블 인코딩
원 핫 인코딩 - 차원
주제: 데이터의 활용 및 구현 II - 데이터 전처리 데이터 전처리 개요:
- 원시 데이터를 분석 및 모델링에 적합하게 변환하는 과정
- 데이터의 정제, 변환, 통합 등을 포함
- 데이터 품질을 높여 신뢰성 있는 분석 가능
데이터 수집 후 전처리 과정:
- 다양한 소스에서 데이터 수집 (OpenAPI, 웹크롤링 등)
- 수집된 데이터는 대부분 정제가 필요
- 초기 확인 및 분석을 통해 데이터 활용 극대화
데이터 타입별 전처리 방법:
- 숫자형 데이터: 결측값 처리, 스케일링 및 정규화
- 범주형 데이터: 결측값 처리, 레이블 인코딩
- 날짜 및 시간 데이터: 형식 변환 및 추출
- 텍스트 데이터: 텍스트 정제 및 벡터화
데이터 정제:
- 결측값 처리: 결측값의 종류와 원인, 확인 방법, 처리 방법 (삭제, 대체 등)
- 이상값 처리: 이상값의 정의와 탐지 방법, 처리 방법 (삭제, 대체 등)
데이터 변환:
- 데이터 스케일링 및 정규화: 표준화와 정규화의 개념, 적용 방법 및 사례
- 데이터 인코딩: 범주형 데이터 인코딩 (Label Encoding, One-Hot Encoding 등)
- 날짜 및 시간 데이터 처리: 형식 변환 및 추출
데이터 통합:
- 데이터 합치기 (Merge, Join): 공통된 키를 사용하여 데이터 간 결합
- 데이터 집계 및 그룹화: 특정 열을 기준으로 요약 통계 계산
- 데이터 변형 및 피벗: 데이터프레임의 형태 변경, 행과 열 변환
고급 데이터 전처리 기법:
- 파생 변수 생성: 기존 데이터에서 새로운 변수 생성
- 데이터 샘플링: 일부 데이터를 선택하여 분석 및 모델링
- 차원 축소 기법 (PCA 등): 고차원 데이터를 저차원으로 변환하여 데이터의 복잡성 감소
데이터 전처리 최적화:
- 전처리 작업의 자동화: 스크립트 및 파이프라인을 사용하여 전처리 작업 자동 실행
- 대용량 데이터 처리: 분산 처리, 병렬 처리, 메모리 관리 등
- 전처리 과정의 효율성 향상: 최적화된 알고리즘, 코딩 스타일 개선, 적절한 데이터 구조 사용
실습💛 은 오늘은 사전 기술 테스트
그래도 실습도 있다
🍋카카오 부트캠프🍋 2회차 실습 : kaggle의 데이터를 선정해 전처리 파이프라인 구축해보기
🍋 과제 KTB_Day2_GenAI.ipynbColab notebookcolab.research.google.com 🍋 예시 코드 구경 🍋 실습
junggoldchae-coding.tistory.com
미션💛
팀원들이랑 이야기 먼저
앨리스 챌린지
팀원들이랑 같이 해보려거
뉴팀스 팀원들이랑도 같이 해봐야겟따
'Club|Project > 카카오테크 부트캠프 | AI' 카테고리의 다른 글
💛카카오 부트캠프💛 3회차 (0) | 2024.07.04 |
---|---|
🌼카카오 부트캠프🌼 팀 미션 2 : 헬스케어 데이터 분석 및 시각화 플랫폼-AI 1 (0) | 2024.07.03 |
🍋카카오 부트캠프🍋 2회차 실습 : kaggle의 데이터를 선정해 전처리 파이프라인 구축해보기 (0) | 2024.07.03 |
🍋카카오 부트캠프🍋 1회차 실습 : 크롤링과 스크래핑-scrapy/Selenium (0) | 2024.07.02 |
🌼카카오 부트캠프🌼 팀 미션 1 : 저장소 및 협업 환경 구성: 첫 팀 프로젝트를 위한 저장소 및 협업 환경 구성 (0) | 2024.07.02 |