본문 바로가기
  • 컴공생의 공부 일기
  • 공부보단 일기에 가까운 것 같은
  • 블로그

Club413

🥽 1차 랩세미나 🥽 경희 언니 고생고생 발표자료 비공개? 누가 나일 것 같나?너무 티나나 2025. 11. 5.
🌌 Imputation 유효성 검사 실험2 - MICE 검증 실험 완 🌌 찐최종 파이프라인1) 결측치 만들기 - MCAR 방식- 각 칼럼별로 테스트- 데이터의 10퍼센트씩 결측을 만들어서, 10회 반복하여 전체 데이터에 대해 결측 복원을 수행하기2) 분포 변환- 비율형 변수 ( B_T, AxisRatio ) : ε-clip→logit 변환- 큰 양수 값,꼬리 ( SFR_200Myr, EffectiveRadius, StellarMass, StellarVelDispersion, StellarMetallicity ) : log1p 변환3) 스케일링 - standard scaler로 통일!4) MICE 이용해 결측치 채우기 - XGBoost로 통일!5) 스케일 되돌리기- standard scaler 또는 Robust scaler 적용 되돌리기6) 분포 역변환- 비율형 변수 (.. 2025. 11. 4.
🇫🇷 프랑스 파리 Epita : 비행기표, 숙소, 교환처 소통 🇫🇷 TODO- ISIC국제학생증 받기- 인정과목 확인 메일 보내기- Revolut / Wise 계좌 개설 🇫🇷 교환처 소통여행자보험 제출 칸 없음 문의 / 여권 사본을 다시 제출해달라고 했는데 폼 막힘 문의 / 추천서 제출하라고 메일 왔는데 그런 거 안 보내도 된다고 하지 않았냐 문의 (자동응답이래..) / 겨울방학에만 오는 거냐 봄 학기에 오는 거냐 확정 문의 / ...3일 안에 내달라고 했는데 답장에 답변을 안 줘서 집착광공처럼 4통 보냄이러다가 못 가는 거 아냐? 생각을..입학서 받기 전까지는 끝난 게 아니라는 마음으로...입학서 받으면 랩실에 이야기할 계획...ㅠㅠ최대한.빨리.주세요🇫🇷 ISIC 국제학생증 내가 가지고 있는 카뱅 카드가 마스터카드긴 한데IC칩이 약간 망가진 것 같기도 .. 2025. 11. 4.
🥼 Agile 13차 랩실 미팅 교수님 선물~ 11월 첫째 주 미팅 정리 | Notion🌟 Achievementshinyflight.notion.site MICE 결과 해석 및 피처별 판단핵심 요지:단순히 원래 값이 좋은 경우도 있지만, 채워진 데이터가 모델 학습 시 성능을 개선한다면 그 자체로 의미가 있음피처마다 예측 정도가 다르더라도, 모든 피처가 baseline(평균, 중앙값 등)보다 낫다면 현재로서는 최선의 방법으로 볼 수 있음MICE로 채운 값이 “로우 데이터 대비 얼마나 유의미한 개선을 가져왔는가”가 핵심결론:베이스라인 대비 개선된 결과를 근거로, 마이스 대치 결과를 그대로 채택해도 무방 MICE 검증 결과 제시 방식정량지표 선택:KS, Wasserstein, Energy 등 분포 지표는 부가적으로 사용할 수 있으나.. 2025. 11. 4.
🌌 최종 학습용 데이터셋 만들기 ( image-Exclusive : spectroscope-only) 🌌 TODOMICE 검증 실험 평균치, 중앙값 등 다른 기법 실험과 비교제일 잘 복원하는 전처리 기법의 데이터 가지고 모델 전부 다시 돌리기(ing)최고 성능 모델로 추론 코드 돌리기+ 논문 쓰기 🌌 최종 데이터 전처리 기법1) 분포 변환- 비율형 변수 ( B_T, AxisRatio ) : ε-clip→logit 변환- 큰 양수 값,꼬리 ( SFR_200Myr, EffectiveRadius, StellarMass, StellarVelDispersion, StellarMetallicity ) : log1p 2) 스케일링 - standard scaler3) MICE 이용해 결측치 채우기 - XGBoost- 학습되었던 모델 추후 추가 데이터에 결측이 있을 때 사용하기 위해 저장 4) 학습용 데이터 csv로.. 2025. 11. 4.
🌌 Imputation 유효성 검사 실험2 - MICE 검증 실험(단순/최근접 대체와 비교하기) 🌌 TODOMICE 검증 실험 평균치, 중앙값 등 다른 기법 실험과 비교 (ing)제일 잘 복원하는 전처리 기법의 데이터 가지고 모델 전부 다시 돌리기최고 성능 모델로 추론 코드 돌리기+ 논문 쓰기 평균치, 중앙값 등 다른 기법 실험과 비교 (ing) A. 단순 대체 (Single Imputation)평균값 채우기: SimpleImputer(strategy="mean")중앙값 채우기: SimpleImputer(strategy="median")최빈값 채우기: SimpleImputer(strategy="most_frequent")상수값 채우기: SimpleImputer(strategy="constant", fill_value=0 or -1)B. 최근접 대체KNN 대체: KNNImputer(n_neigh.. 2025. 11. 4.
🌌 Imputation 유효성 검사 실험2 - MICE 검증 실험(개선하기) 🌌 TODOMICE 검증 실험 (ing)평균치, 중앙값 등 다른 기법 실험과 비교제일 잘 복원하는 전처리 기법의 데이터 가지고 모델 전부 다시 돌리기최고 성능 모델로 추론 코드 돌리기+ 논문 쓰기 MICE 검증 실험 : 개선하기로버스트스케일러와 스탠다드스케일러 차이 보기분포 정규화 과정 빼 보기칼럼별로 적합한 회귀 모델 끼우기(스케일러도 빼 보기..?) 개선해 보자 1) Heavy-tail 변수(SFR, StellarMass)에서 선형 MICE가 한계에 부딪히는 이유조건부 평균(Conditional Mean)으로의 수축: 현재 MICE의 기본 설정(BayesianRidge 등 선형 회귀)은 “조건부 평균”을 예측해 대치Heavy-tail(꼬리가 두껍고 극단값이 드문 분포)에서는 극단값이 평균 쪽으로.. 2025. 11. 4.
🌌 Imputation 유효성 검사 실험2 - MICE 검증 실험 🌌 TODOMICE 검증 실험(ing)평균치, 중앙값 등 다른 기법 실험과 비교제일 잘 복원하는 전처리 기법의 데이터 가지고 모델 전부 다시 돌리기최고 성능 모델로 추론 코드 돌리기+ 논문 쓰기 🌌 MICE 검증 실험1) 결측치 만들기 - MCAR 방식- 각 칼럼별로 테스트- 데이터의 10퍼센트씩 결측을 만들어서, 10회 반복하여 전체 데이터에 대해 결측 복원을 수행하기2) 분포 변환- 비율형 변수 ( B_T, AxisRatio ) : logit 변환- 큰 양수 값 ( EffectiveRadius, StellarMass, StellarVelDispersion, StellarMetallicity ) : log1p 변환3) 스케일링 - standard scaler 또는 Robust scaler 적용4).. 2025. 11. 3.
📊 대치 정확도, 분포 보존 검증법 정리 : MAE, RMSE, R², NMAE / KS, CDF, Wasserstein distance(EMD), Q–Q plot, Energy distance 끝나고 위블레갈거잉~ 위블렝본가 갈 때 선물~ 📊대치 정확도 : 점추정 점추정(point estimate) 지표 값의 오차를 수치적으로 평가지표식이상치 민감도단위해석 초점특징MAE평균 절대오차낮음원 단위평균적 오차 크기안정적, 직관적RMSE제곱평균오차 루트높음원 단위큰 오차 영향분산 평가R²설명된 분산 비율중간무단위모델 설명력직관적 비율NMAEMAE / IQR 또는 Range낮음무단위상대적 오차단위 비교 가능 1️⃣ MAE (Mean Absolute Error, 평균 절대 오차) 의미: 실제값과 대치값의 차이의 절댓값 평균.특징:오차의 방향(±)을 무시하고, 크기만 평가.이상치(outlier)에 비교적 덜 민감.해석: “평균적으로 이 정도만큼 틀렸다.”단위: 원 데이터와 동일 (ex. 반지름[kp.. 2025. 11. 3.
📊 데이터 전처리 기법 정리 : StandardScaler, RobustScaler , MinMaxScaler / log1p(sigmoid), logit(exmp1) 임퓨테이션 검증하다가 지식의 한계 느낌 📊데이터 전처리 “값의 크기를 맞추는 것(스케일링)”데이터의 “형태(분포)”를 바꾸는 게 아니라, “크기(범위)”만 맞추는 변환각 방법은 평균·중앙값·최소값을 기준으로 스케일을 맞추는 점이 다름StandardScaler → 통계적으로 정규화 (정규분포 가정 시 최적)RobustScaler → 이상치 강인 (중앙값 기준)MinMaxScaler → 단순한 범위 정규화 (0~1)“분포를 조정하는 것(변환)”데이터의 “크기(범위)”통일이 아니라, “형태(분포)”를 바꾸는 변환log1p ↔ expm1 : “양수 데이터의 로그-스케일 압축과 복원”logit ↔ sigmoid : “확률/비율 데이터의 선형화와 복원”⚙️ Scaler1️⃣ StandardScaler평균을 0, .. 2025. 10. 31.