🎯 Galaxy merger challenge: A comparison study between machine learning-based detection methods

Galaxy merger challenge: A comparison study between machine learning-based detection methods
<BR /> Aims: Various galaxy merger detection methods have been applied to diverse datasets. However, it is difficult to understand how they compare. Our aim is to benchmark the relative performance of merger detection methods based on machine learning (ML)
ui.adsabs.harvard.edu
Galaxy Merger Challenge: 머신러닝 기반 은하 병합 탐지 기법 비교 연구
Margalef-Bentabol et al. (2023)
🎯 연구 목적 (Aims)
다양한 머신러닝 기반 은하 병합 탐지 기법들이 서로 다른 데이터셋에 적용되고 있지만,
이들 방법 간의 성능 비교가 명확하지 않음.
➡️ 본 연구의 목적은
• 대표적인 ML 모델 6종을
• 시뮬레이션 + 실제 관측 데이터에서
• 성능을 비교 및 벤치마킹하는 것
🧪 방법 (Methods)
사용된 데이터셋 3종:
데이터 | 설명 | 목적 |
IllustrisTNG | 시뮬레이션 기반 mock 관측 이미지 | 훈련용 + 기준 성능 측정 |
Horizon-AGN | 별도의 시뮬레이션 mock 이미지 | 도메인 이동 시 성능 측정 |
HSC-SSP (실제 관측) | Subaru 망원경 기반 실제 이미지 | 실제 적용 성능 측정 |
• 모델은 TNG 기반에서 학습됨
• HSC에서는 시각적 분류(visual inspection)와의 일치도 평가
🧠 결과 요약 (Results)
✔️ 1. 이진 분류 (merger vs non-merger)
조건 | 결과 |
훈련 도메인 내 | precision, recall: 70~80% 수준 (z ~ 0.1~0.3) |
고적색이동(z ↑) | 성능 하락 (정밀도 -5%, 재현율 -10% 이상) |
도메인 전이 (TNG → Horizon) | precision은 유지, recall은 20~40% 하락 |
전체 성능 | Zoobot 모델이 precision, F1 점수에서 가장 우수 |
✔️ 2. 실제 관측 데이터(HSC)에 적용
• 명확한 병합(major merger)의 경우, 모델 간 시각적 라벨과 비교적 일치
• 그러나 전체 병합 비율 예측은 모델 간 10배 이상 차이 발생
✔️ 3. 다중 클래스 분류 (pre / ongoing / post merger)
• 모든 모델 성능이 낮음
• 특히 ongoing, post-merger 분류가 매우 어려움
• 해상도/데이터 깊이 부족도 원인
• 향후 JWST, Euclid 등 고해상도 관측이 중요
✅ 결론 (Conclusions)
• 머신러닝 모델들은 기본적인 병합/비병합 분류는 잘 수행하지만,
• 병합 단계별(post-merger 등) 분류는 현재 수준으로는 어려움
• 도메인 이동에 대비한 모델 설계가 필요 (sim → real)
• 향후 데이터 품질 향상에 따라 모델 개선도 중요
🔍 시사점 요약
시사점 | 설명 |
🧠 Sim vs Real 도메인 갭 | recall 크게 감소함 → domain adaptation 필요 |
🎯 다중 클래스 분류 어려움 | 특히 post-merger 분류는 매우 저조 |
🤖 모델간 편차 큼 | 모델 선택이 최종 분석에 큰 영향 줌 |
🔭 고품질 데이터 필요 | JWST, Euclid 기반 연구에 대비한 모델 개선 필요 |
그렇다면 가장 높은 성능을 보여준 Zoobot 모델을 이용한 은하 병합 판별 연구를 더 알아보자
🎯 Galaxy mergers in Subaru HSC-SSP: A deep representation learning approach for identification, and the role of environment on merger incidence
https://ui.adsabs.harvard.edu/abs/2023A%26A...679A.142O/abstract
Subaru HSC-SSP에서의 은하 병합 탐지: 딥 리프레젠테이션 러닝 접근과 환경이 병합 발생에 미치는 역할
🧠배경(Context):
은하 병합과 상호작용은 은하 진화에 있어 중요한 과정이지만, 순수하고 완전한 병합 샘플을 식별할 수 있는 확정적인 방법은 아직 존재하지 않는다. 은하 병합의 과정과 그 영향에 대한 심도 있는 연구를 위해, 이러한 정제된 병합 샘플을 구축하는 방법이 필요하다.
🧠목적(Aims):
본 연구에서는 Subaru HSC-SSP 데이터에서 딥 리프레젠테이션 러닝과 파인튜닝을 활용한 딥러닝 기반 은하 병합 식별 접근법을 제안한다. 이 방법을 통해 순수하고 완전한 병합 샘플을 생성하고, 은하 병합이 은하 진화에 어떤 영향을 미치는지 분석하는 데 활용하고자 한다.
🧠방법(Methods):
• Galaxy Zoo DeCALS 이미지에 기반한 시민 과학자들의 투표 데이터로 사전 학습된 Zoobot 딥러닝 모델을 사용하였다.
• 이를 SDSS 및 GAMA 은하들의 HSC-SSP 이미지 병합 분류용으로 파인튜닝하였다.
• 파인튜닝에는 TNG 시뮬레이션에서 생성한 약 1200개의 합성 HSC-SSP 은하 이미지를 활용하였다.
• 이후, 실제 HSC 이미지에서 병합 확률을 예측하였고, 이를 바탕으로 병합 활동과 주변 환경 간의 관계를 분석하였다.
🧠결과(Results):
• 파인튜닝된 모델은 합성 검증 데이터에서 약 76%의 정확도를 달성했다. 이는 기존 CNN 기반 연구와 비슷한 수준이지만, 훈련 샘플 수는 훨씬 적다.
• 모델은 약 80%의 완전성(completeness)과 정밀도(precision)를 보였고,
• 다양한 형태와 구조를 가진 병합/비병합 은하를 분류하고,
• 병합 쌍과 단순 투영을 구별할 수 있었다.
• 환경과 병합의 관계 측면에서,
• 0.5–8 h⁻¹ Mpc 범위에서는 낮은 밀도 환경에서 병합 확률이 높았으며,
• 그보다 작은 스케일에서는 (시뮬레이션에서) 높은 밀도 환경에서 병합 확률이 높았다.
🧠결론(Conclusions):
우리는 시민 과학 기반의 딥 리프레젠테이션 러닝 모델을 파인튜닝하여 HSC-SSP에서의 은하 병합 분류에 성공했으며, 병합 확률 카탈로그를 공개하였다. 이 형태 기반 카탈로그를 통해, 병합은 중규모 스케일(0.5–8 h⁻¹ Mpc)에서는 낮은 밀도 환경에서 더 자주 발생함을 발견하였다.
🎯ZooBot 모델
GitHub - mwalmsley/zoobot: Classifies galaxy morphology with Bayesian CNN
Classifies galaxy morphology with Bayesian CNN. Contribute to mwalmsley/zoobot development by creating an account on GitHub.
github.com
은하 형태 분류(Galaxy Morphology Classification)**를 위해 특별히 설계된 딥러닝 기반 파운데이션 모델
Zoobot: Adaptable Deep Learning Models for Galaxy Morphology
Walmsley et al., (2023). Zoobot: Adaptable Deep Learning Models for Galaxy Morphology. Journal of Open Source Software, 8(85), 5312, https://doi.org/10.21105/joss.05312
joss.theoj.org
🧠 Zoobot의 전체 구조 요약
Zoobot은 크게 다음과 같은 세 부분으로 구성돼:
1. 백본(backbone):
입력 이미지를 받아 특성 벡터(Feature Vector)를 추출하는 역할
• 기본적으로 ConvNeXT, EfficientNetV2, MaxViT 등 최신 이미지 분류 모델 아키텍처 중 하나를 사용
• 이 백본들은 모두 HuggingFace Hub에 사전 학습된 모델(pretrained encoder)로 존재함
• 최근 버전(2.0)은 흑백 이미지용 인코더(zoobot-encoder-greyscale-convnext_nano)도 포함됨
2. 표현 학습 레이어(Representation Layer):
백본에서 추출된 특성들을 은하 형태 분류를 위한 표현 공간으로 매핑
• 이 레이어는 딥 슈퍼바이즈드 리프레젠테이션 러닝(deep supervised representation learning)을 기반으로 함
• 다양한 은하 형태(ex. 바 구조, 링, 병합 상태 등)를 포괄적으로 표현할 수 있도록 학습됨
3. 헤드(Head):
최종 예측을 출력하는 모듈
• 분류 작업에 따라:
• 이진 분류(Binary Classification): 특정 특징 존재 여부 (ex. 링 있음/없음)
• 다중 클래스(Multi-class Classification): 다양한 형태 구분 (ex. 나선형, 타원형, 불규칙 등)
• 회귀(Regression): 형태의 연속적 특성값 예측도 가능
🔁 파인튜닝 구조
Zoobot은 재학습이 용이하게 설계되어 있어:
• 백본은 고정하거나 일부 레이어만 업데이트 가능
• 최상단의 헤드 부분만 새로운 라벨(예: ‘병합 은하’)에 맞춰 학습 가능
• 일반적인 PyTorch Lightning Trainer 구조 사용
• 학습 구조 예시:
model = FinetuneableZoobotClassifier(
checkpoint_loc='huggingface/zoobot-model',
num_classes=2 # 예: 병합 vs 비병합
)
🔄 데이터 입출력 파이프라인
Zoobot은 이미지 파일 경로와 메타데이터가 담긴 CSV를 사용하여 학습/예측을 수행
• 학습 데이터에는 file_loc, label_cols가 필요
• GalaxyDataModule을 통해 자동으로 배치 구성, 증강(Augmentation) 등 처리
• 예측 결과는 predict_on_catalog.predict() 함수로 손쉽게 저장 가능
Zoobot은 다음처럼 모듈화
zoobot/
│
├── pytorch/
│ ├── training/ # 학습 루프 및 모델 정의
│ ├── predictions/ # 예측 함수
│ ├── models/ # 다양한 backbone 정의
│ └── examples/ # 파인튜닝, 학습, 표현 추출 예시
🔍 요약
구성 요소 | 역할 | 선택 가능 요소 |
백본 (Encoder) | 이미지 → 특성 벡터 | ConvNeXT, EfficientNetV2, MaxViT 등 |
표현 레이어 | 특성 벡터 → 은하 특징 표현 | deep supervised representation learning |
헤드 (Head) | 표현 → 분류 or 회귀 결과 | Binary / Multi-class / Regression |
학습 방식 | 사전 학습 → 소량 데이터로 파인튜닝 가능 | PyTorch Lightning 기반 구조 |
🎯 데이터
Galaxy mergers in Subaru HSC-SSP: A deep representation learning approach for identification, and the role of environment on merger incidence 에서 사용한 병합 은하 탐지를 위한 데이터
=> HSC-SSP, SDSS, GAMA 데이터
✅ 1. 시뮬레이션 데이터:
📌 TNG50 (IllustrisTNG 시뮬레이션)
• 용도: 모델 학습을 위한 병합/비병합 이미지 데이터셋 생성
• 형태: HSC-SSP 스타일로 합성된 gri 이미지 (300x300 픽셀, SKIRT 라디에이티브 트랜스퍼 코드 사용)
• 라벨: 병합 여부는 merger tree 기반으로, ±0.5 Gyr 내 병합 이벤트 유무로 결정됨
🔗 IllustrisTNG Project (TNG50 Data)
IllustrisTNG - Data Access
Select a simulation to browse the available data files and get direct download links: Show: Primary Volumes Subboxes Simulation families: TNG Illustris Other Types: Baryonic Gravity Only Low Resolution Simulation Name $L_{\rm box} [Mpc]$ $N_{\rm DM}$ $m_{\
www.tng-project.org
✅ 2. 실제 관측 데이터:
📌 HSC-SSP (Hyper Suprime-Cam Subaru Strategic Program)
• 용도: 테스트 및 실제 병합 탐지 적용 대상
• 이미지 특징: grizy 밴드, 깊은 해상도(r ≈ 26mag)
• 공개 버전: Public Data Release 3 (PDR3), S21A 등
🔗 HSC-SSP DR3 Data Access Portal
📌 SDSS DR17, GAMA DR4
• 용도: HSC와의 크로스매칭으로 정밀 적색이동값(z), 질량(M*), 환경 정보 확보
• 조건: 스펙트로스코피 기반 z 값이 있는 은하들만 사용 (z < 0.35, r밴드 밝기 컷 존재)
🧪 데이터 구성
출처 | 목적 | 내용 |
TNG50 | 학습 | 병합 여부 라벨된 gri 은하 이미지 (~1200장 병합, 1200장 비병합) |
HSC-SSP | 적용 | 고해상도 관측 이미지 (~30만 SDSS/GAMA 은하) |
SDSS/GAMA | 보조정보 | 질량, z, 환경 정보 매칭 (spec-z 기반) |
'Club|Project > 졸업 프로젝트 연구 트랙' 카테고리의 다른 글
🔭 서울대학교 물리천문학부 Sascha Trippe 교수님 연구 면담 (0) | 2025.04.03 |
---|---|
💥 Zoobot 모델 - 은하 병합 파인튜닝 테스트 : 데이터 (2) | 2025.04.02 |
우주먼지 교수님 주제 Post-merger Masquerade (0) | 2025.04.01 |
👨🏻🚀 우주천문학 팀원들 첫 만남! + spaceAI 지웅배 교수님 미팅 (0) | 2025.04.01 |
🧠 multi-model AI 공부 계획 (0) | 2025.03.25 |