본문 바로가기
  • 컴공생의 공부 일기
  • 공부보단 일기에 가까운 것 같은
  • 블로그

Club/졸업 연구 | 멀티모달 AI를 이용한 은하 병합 단계 분류58

🌄 이미지 Only 모델 결과 해석 - GRAD-CAM 기법특징강점약점Grad-CAM마지막 Conv 레이어의 gradient를 이용해 특징 맵 생성직관적이며 널리 쓰임해상도가 낮고 세밀한 정보 반영 부족Grad-CAM++Grad-CAM의 개선판, 비선형 클래스 응답 고려객체가 여러 개 있거나 불명확할 때 더 정확계산 비용 약간 증가Guided Backpropagation입력 → 출력까지 gradient를 그대로 backprop 후 시각화입력 이미지 기반 미세 특징 시각화에 적합단독 사용 시 의미 해석 어려움SmoothGrad입력에 노이즈 추가하여 여러 번 gradient를 계산하고 평균노이즈 제거로 불안정성 보완 → 선명한 마스크 생성계산량 증가Score-CAMgradient 없이 activation map의 중요도를 직접 계산더 직관적이고 안정적 (No g.. 2025. 7. 21.
[Explaining deep learning of galaxy morphology with saliency mapping] : XAI 천문학 논문 1 https://academic.oup.com/mnras/article/511/4/5032/6529251 🔭 개요 XAI 기법이 천문학 데이터에도 적용 가능함을 입증하는 것이 목적 Galaxy Zoo 프로젝트 데이터 XAI 기법 중 하나인 saliency map을 이용해 이미지 처리에서 양적 측정(예: 막대 길이)을 수행bar structure (막대형 은하의 막대 부분)에 집중 CNN이 예측한 결과에 대해 SMOOTHGRAD를 사용해 saliency map을 얻고,이를 바탕으로 막대 길이를 측정 🔥 SALIENCY MAPPING (주목도 맵) 🧠 Saliency Map이란?CNN이 이미지를 어떻게 분류했는지 그 내부 작동을 시각적으로 설명하는 기법이미지의 어떤 부분이 해당 분류에 얼마나 기여했는지.. 2025. 7. 21.
🌌 SYNERGI 미팅 내용 정리 회의 내용 정리! 🌌 우리 발표넘어간다넘어간다먼저 우리가 발표! 🌌 SYNERGI 중간 보고 내용마이크 겹치면 안 돼서 조로록🌌 PPT🌌 발표문 은채 안녕하세요 AI 진척 사항 공유하도록 하겠습니다! –먼저 진행 현황 설명드린 후에앞으로의 방향성에 대해서 논의해보면 좋을 것 같습니다!junggoldchae-coding.tistory.com이 내용으로 논문 저자 순서는 이대 AI 팀 3명 - 1저자테크닉적 부분에 집중한 첫 번째 논문천문학 팀 - 1저자해석 부분에 집중한 두 번째 논문연대 대학원 분들 지도교수님 - 여쭤보겠다고 하심이형준 교수님/ 교수님께서는 의사가 있으시면 한 번 미팅에 참여해주시면 좋을 것 같다고 해주심교신 저자(corresponding author) : 지웅배 교수님감사? .. 2025. 7. 19.
🤖 설명 가능한 AI - 기법 2) CAM, Grad CAM## CAM (Class Activation Map) 보통 CNN의 구조를 생각해보면, Input - Conv Layers - FC Layers 으로 이루어졌습니다. CNN의…wikidocs.net 딥러닝 모델대표적인 시각화(visualization) 방법Feature vector visualization using t-SNE/PCAActivation VisualizationMaximally Activating Images / Patches Maximization by Optimization & Deep DreamOcclusion feature map이미지가 딥러닝 모델의 Intermediate layer를 통과하면서 생성된 맵 Activation map : feature.. 2025. 7. 18.
🌌 SYNERGI 중간 보고 내용 마이크 겹치면 안 돼서 조로록🌌 PPT🌌 발표문 은채 안녕하세요 AI 진척 사항 공유하도록 하겠습니다! –먼저 진행 현황 설명드린 후에앞으로의 방향성에 대해서 논의해보면 좋을 것 같습니다!– 이미지 데이터는 7/4일 희수 연구원님께 전달받았습니다. 도메인에 특화되고 테스크가 3클래스 분류처럼 복잡하지 않으며, 데이터 량이 천문학적으로 많지 않은 저희 테스크에서는 모델의 차이보다 데이터의 상태에 성능이 크게 좌우되므로 교수님들의 조언에 따라 다양한 데이터 전처리를 해 보려고 시도하였습니다. 화면에 보이시는 것처럼 크게 3개로 데이터를 나누어 전처리하였습니다.허깅페이스에 관련 내용을 올렸으며, 현대 프라이빗으로 키를 통해서만 데이터에 접근할 수 있는 상태입니다.토큰은 카톡방에 공유하도록 하겠습니다. .. 2025. 7. 16.
🛠️ 멀티모달 모델 아키텍처 / 결과 관계 해석 전략 정리 🛠️ 멀티모달 모델 아키텍처은하의 병합 단계를 분류 (Non-merger, Pre-merger, Post-merger).은하 이미지와 수치형 물리량을 결합하는 멀티모달 접근법을 사용 시뮬레이션 데이터를 기반 이미지: 224×224 픽셀 은하 이미지수치형 물리량 (Tabular features): 은하의 수치적 물리 속성들. 예시:Stellar Mass (M)ColorStar Formation Rate (SFR)Local Environment Density (은하 주변 밀도)Luminosity (L)Redshift (Z)🛠️ 결과 관계 해석 전략 정리이미지로부터 얻을 수 있는 형태학적 병합 단서와, 수치 피처로부터 유추 가능한 물리적 특성을 통합하여 병합 단계를 정확히 예측하기 두 가지 분석 방향을 .. 2025. 7. 15.
📑 결과 - 물리량 / 이미지-수치 물리량 관계 해석 전략 ✅ 방향성 1: 어떤 물리량이 결과에 가장 영향을 끼쳤는지 알아내기 ① Feature Importance 분석 (Tabular Encoder 기준)Tabular encoder로 MLP / TabTransformer / FT-Transformer를 쓰기 :Attention weight 평균 또는 학습된 MLP의 weight magnitude로 feature 중요도 추정 가능.Permutation Importance: 각 feature 값을 셔플하고 성능 변화 측정 → 가장 성능이 떨어지면 중요하다는 의미SHAP (SHapley Additive exPlanations):각 샘플에 대해 각 feature가 예측에 기여한 정도를 수치화멀티모달 모델에서도 tabular encoder가 분리되어 있다면 적용 가능.. 2025. 7. 11.
📆 이형준 교수님 3번째 미팅 교수님의 칭찬 📆 1. 데이터 및 라벨링라벨링 방식:병합 전이면 pre-merger, 병합 중이면 post-merger, 병합 없으면 non-merger.10 스냅샷 윈도우 기준 (±10).시점 구분을 더 세분화할 수 있지만, 우선은 3클래스로 실험 진행하는 게 좋을 듯이미지 전처리:은하 중심을 기준으로 크롭 → 리사이즈 (224×224) - 이거 좀 작다는 의견 → 텐서화.은하 크기 차이를 보정하기 위해 black pixel 비율 기반 다이내믹 리사이징 고려.너무 확대/축소되지 않도록 주변 정보 일부 포함 유지.사이즈를 여러 개 만들어서 최적 성능을 내는 데이터셋을 찾아라 (나중에) 📆 이미지 분류 모델 실험실험한 모델들:✅ Swin Transformer (Acc: 0.79) → 가장 우수.. 2025. 7. 11.
🎇 은하 병합 image-only 모델 진행 계획 🎇 계획 🎇 데이터 희수 언니가 image only 데이터를 넘겨줬다이렇게 되어 있구 이렇게 정리해 봤다 우리 허깅페이스 스페이스에도 업데이트 HamCaDor/GalaxyMergerRawImage · Datasets at Hugging FaceSearch is not available for this datasethuggingface.co 🎇 이미지 모델 테스트 계획 지금까지 읽었던 선행 논문들을 대상으로따라해 보기로 결정 마미 피어슨 씨 논문 zoobot 정기 회의는 다음주부터 격주 수요일이 될 것 같다 한국천문연 협업 캠프..!설렘 2025. 7. 8.
[컴퓨터비전 2025] Lecture 18. Multimodal Learning 강의 정리 안락한 쓰레기통 생활 이후..계절/토플/우주연구 개강.. 오랜만에 소은한나 만나서 멀모 강의 듣기데이터를 저장하는 형식이 여러 가지형식이 다른 데이터들을 종합적으로 활용하는 방식 오토매틱 스피치 리코그네이션 ASR (받아쓰기)VQA : 이미지를 보고 질문을 텍스트로 주면은 그거에 대한 답을 텍스트로 생성하는 문제 로컬라이제이션 이제 그냥 거의 다 트랜스포머쌍데이터 구하기 BERT트랜스포머 인코더를 이용해서 워드 임베딩을 학습하는 모델인풋으로 두 개의 문장을 받 VL-BERT이미지 한 장과 문장 하나 VQA질문에 대한 문장, 답에 대한 문장 MLM+ 이미지 임베딩 하나 더 (비주얼적 토큰들도 적용 VilBERTCo - TRM 상대방을 참조하는 그 크로스 모델 어텐션 Transformer-based .. 2025. 6. 30.