본문 바로가기
  • 컴공생의 공부 일기
  • 공부보단 일기에 가까운 것 같은
  • 블로그
Club|Project/졸업 프로젝트 연구 트랙

🎯 Galaxy mergers 연구 알아보기 (Zoobot 모델 / 데이터 )

by 정람지 2025. 4. 2.

🎯 Galaxy merger challenge: A comparison study between machine learning-based detection methods

 

Galaxy merger challenge: A comparison study between machine learning-based detection methods

<BR /> Aims: Various galaxy merger detection methods have been applied to diverse datasets. However, it is difficult to understand how they compare. Our aim is to benchmark the relative performance of merger detection methods based on machine learning (ML)

ui.adsabs.harvard.edu

 

Galaxy Merger Challenge: 머신러닝 기반 은하 병합 탐지 기법 비교 연구

Margalef-Bentabol et al. (2023)

 

 

 

🎯 연구 목적 (Aims)

다양한 머신러닝 기반 은하 병합 탐지 기법들이 서로 다른 데이터셋에 적용되고 있지만,

이들 방법 간의 성능 비교가 명확하지 않음.

 

➡️ 본 연구의 목적은

 대표적인 ML 모델 6종을

 시뮬레이션 + 실제 관측 데이터에서

 성능을 비교 및 벤치마킹하는 것

 

 

 

🧪 방법 (Methods)

 

사용된 데이터셋 3종:

데이터 설명 목적
IllustrisTNG 시뮬레이션 기반 mock 관측 이미지 훈련용 + 기준 성능 측정
Horizon-AGN 별도의 시뮬레이션 mock 이미지 도메인 이동 시 성능 측정
HSC-SSP (실제 관측) Subaru 망원경 기반 실제 이미지 실제 적용 성능 측정

 모델은 TNG 기반에서 학습됨

 HSC에서는 시각적 분류(visual inspection)와의 일치도 평가

 

 

 

🧠 결과 요약 (Results)

 

✔️ 1. 이진 분류 (merger vs non-merger)

조건 결과
훈련 도메인 내 precision, recall: 70~80% 수준 (z ~ 0.1~0.3)
고적색이동(z ↑) 성능 하락 (정밀도 -5%, 재현율 -10% 이상)
도메인 전이 (TNG → Horizon) precision은 유지, recall은 20~40% 하락
전체 성능 Zoobot 모델이 precision, F1 점수에서 가장 우수

 

✔️ 2. 실제 관측 데이터(HSC)에 적용

 명확한 병합(major merger)의 경우, 모델 간 시각적 라벨과 비교적 일치

 그러나 전체 병합 비율 예측은 모델 간 10배 이상 차이 발생

 

✔️ 3. 다중 클래스 분류 (pre / ongoing / post merger)

 모든 모델 성능이 낮음

 특히 ongoing, post-merger 분류가 매우 어려움

 해상도/데이터 깊이 부족도 원인

 향후 JWST, Euclid 등 고해상도 관측이 중요

 

✅ 결론 (Conclusions)

 머신러닝 모델들은 기본적인 병합/비병합 분류는 잘 수행하지만,

 병합 단계별(post-merger 등) 분류는 현재 수준으로는 어려움

 도메인 이동에 대비한 모델 설계가 필요 (sim → real)

 향후 데이터 품질 향상에 따라 모델 개선도 중요

 

 

🔍 시사점 요약

시사점 설명
🧠 Sim vs Real 도메인 갭 recall 크게 감소함 → domain adaptation 필요
🎯 다중 클래스 분류 어려움 특히 post-merger 분류는 매우 저조
🤖 모델간 편차 큼 모델 선택이 최종 분석에 큰 영향 줌
🔭 고품질 데이터 필요 JWST, Euclid 기반 연구에 대비한 모델 개선 필요

 


 

그렇다면 가장 높은 성능을 보여준 Zoobot 모델을 이용한 은하 병합 판별 연구를 더 알아보자

🎯 Galaxy mergers in Subaru HSC-SSP: A deep representation learning approach for identification, and the role of environment on merger incidence

https://ui.adsabs.harvard.edu/abs/2023A%26A...679A.142O/abstract

 

 

Subaru HSC-SSP에서의 은하 병합 탐지: 딥 리프레젠테이션 러닝 접근과 환경이 병합 발생에 미치는 역할

 

🧠배경(Context):

은하 병합과 상호작용은 은하 진화에 있어 중요한 과정이지만, 순수하고 완전한 병합 샘플을 식별할 수 있는 확정적인 방법은 아직 존재하지 않는다. 은하 병합의 과정과 그 영향에 대한 심도 있는 연구를 위해, 이러한 정제된 병합 샘플을 구축하는 방법이 필요하다.

 

🧠목적(Aims):

본 연구에서는 Subaru HSC-SSP 데이터에서 딥 리프레젠테이션 러닝과 파인튜닝을 활용한 딥러닝 기반 은하 병합 식별 접근법을 제안한다. 이 방법을 통해 순수하고 완전한 병합 샘플을 생성하고, 은하 병합이 은하 진화에 어떤 영향을 미치는지 분석하는 데 활용하고자 한다.

 

🧠방법(Methods):

 Galaxy Zoo DeCALS 이미지에 기반한 시민 과학자들의 투표 데이터로 사전 학습된 Zoobot 딥러닝 모델을 사용하였다.

 이를 SDSS 및 GAMA 은하들의 HSC-SSP 이미지 병합 분류용으로 파인튜닝하였다.

 파인튜닝에는 TNG 시뮬레이션에서 생성한 약 1200개의 합성 HSC-SSP 은하 이미지를 활용하였다.

 이후, 실제 HSC 이미지에서 병합 확률을 예측하였고, 이를 바탕으로 병합 활동과 주변 환경 간의 관계를 분석하였다.

 

🧠결과(Results):

 파인튜닝된 모델은 합성 검증 데이터에서 약 76%의 정확도를 달성했다. 이는 기존 CNN 기반 연구와 비슷한 수준이지만, 훈련 샘플 수는 훨씬 적다.

 모델은 약 80%의 완전성(completeness)과 정밀도(precision)를 보였고,

 다양한 형태와 구조를 가진 병합/비병합 은하를 분류하고,

 병합 쌍과 단순 투영을 구별할 수 있었다.

 환경과 병합의 관계 측면에서,

 0.5–8 h⁻¹ Mpc 범위에서는 낮은 밀도 환경에서 병합 확률이 높았으며,

 그보다 작은 스케일에서는 (시뮬레이션에서) 높은 밀도 환경에서 병합 확률이 높았다.

 

🧠결론(Conclusions):

우리는 시민 과학 기반의 딥 리프레젠테이션 러닝 모델을 파인튜닝하여 HSC-SSP에서의 은하 병합 분류에 성공했으며, 병합 확률 카탈로그를 공개하였다. 이 형태 기반 카탈로그를 통해, 병합은 중규모 스케일(0.5–8 h⁻¹ Mpc)에서는 낮은 밀도 환경에서 더 자주 발생함을 발견하였다.


🎯ZooBot 모델

 

GitHub - mwalmsley/zoobot: Classifies galaxy morphology with Bayesian CNN

Classifies galaxy morphology with Bayesian CNN. Contribute to mwalmsley/zoobot development by creating an account on GitHub.

github.com

은하 형태 분류(Galaxy Morphology Classification)**를 위해 특별히 설계된 딥러닝 기반 파운데이션 모델

 

Zoobot: Adaptable Deep Learning Models for Galaxy Morphology

Walmsley et al., (2023). Zoobot: Adaptable Deep Learning Models for Galaxy Morphology. Journal of Open Source Software, 8(85), 5312, https://doi.org/10.21105/joss.05312

joss.theoj.org

 

 

🧠 Zoobot의 전체 구조 요약

 

Zoobot은 크게 다음과 같은 세 부분으로 구성돼:

 

1. 백본(backbone):

 

입력 이미지를 받아 특성 벡터(Feature Vector)를 추출하는 역할

 

 기본적으로 ConvNeXT, EfficientNetV2, MaxViT  최신 이미지 분류 모델 아키텍처 중 하나를 사용

 이 백본들은 모두 HuggingFace Hub에 사전 학습된 모델(pretrained encoder)로 존재함

 최근 버전(2.0)은 흑백 이미지용 인코더(zoobot-encoder-greyscale-convnext_nano)도 포함됨

 

 

2. 표현 학습 레이어(Representation Layer):

백본에서 추출된 특성들을 은하 형태 분류를 위한 표현 공간으로 매핑

 

 이 레이어는 딥 슈퍼바이즈드 리프레젠테이션 러닝(deep supervised representation learning)을 기반으로 함

 다양한 은하 형태(ex. 바 구조, 링, 병합 상태 등)를 포괄적으로 표현할 수 있도록 학습됨

 

 

3. 헤드(Head):

최종 예측을 출력하는 모듈

 

 분류 작업에 따라:

 이진 분류(Binary Classification): 특정 특징 존재 여부 (ex. 링 있음/없음)

 다중 클래스(Multi-class Classification): 다양한 형태 구분 (ex. 나선형, 타원형, 불규칙 등)

 회귀(Regression): 형태의 연속적 특성값 예측도 가능

 

 

 

 

🔁 파인튜닝 구조

 

Zoobot은 재학습이 용이하게 설계되어 있어:

 백본은 고정하거나 일부 레이어만 업데이트 가능

 최상단의 헤드 부분만 새로운 라벨(예: ‘병합 은하’)에 맞춰 학습 가능

 일반적인 PyTorch Lightning Trainer 구조 사용

 학습 구조 예시:

model = FinetuneableZoobotClassifier(
    checkpoint_loc='huggingface/zoobot-model',
    num_classes=2  # 예: 병합 vs 비병합
)

 

 

🔄 데이터 입출력 파이프라인

 

Zoobot은 이미지 파일 경로와 메타데이터가 담긴 CSV를 사용하여 학습/예측을 수행

 학습 데이터에는 file_loc, label_cols가 필요

 GalaxyDataModule을 통해 자동으로 배치 구성, 증강(Augmentation) 등 처리

 예측 결과는 predict_on_catalog.predict() 함수로 손쉽게 저장 가능

 

 

 

Zoobot은 다음처럼 모듈화

zoobot/
│
├── pytorch/
│   ├── training/            # 학습 루프 및 모델 정의
│   ├── predictions/         # 예측 함수
│   ├── models/              # 다양한 backbone 정의
│   └── examples/            # 파인튜닝, 학습, 표현 추출 예시

 

 

 

 

🔍 요약

구성 요소 역할 선택 가능 요소
백본 (Encoder) 이미지 → 특성 벡터 ConvNeXT, EfficientNetV2, MaxViT 등
표현 레이어 특성 벡터 → 은하 특징 표현 deep supervised representation learning
헤드 (Head) 표현 → 분류 or 회귀 결과 Binary / Multi-class / Regression
학습 방식 사전 학습 → 소량 데이터로 파인튜닝 가능 PyTorch Lightning 기반 구조

 

 


🎯 데이터

Galaxy mergers in Subaru HSC-SSP: A deep representation learning approach for identification, and the role of environment on merger incidence 에서 사용한 병합 은하 탐지를 위한 데이터

 

=> HSC-SSP, SDSS, GAMA 데이터

 

 

 

✅ 1. 시뮬레이션 데이터:

 

📌 TNG50 (IllustrisTNG 시뮬레이션)

 용도: 모델 학습을 위한 병합/비병합 이미지 데이터셋 생성

 형태: HSC-SSP 스타일로 합성된 gri 이미지 (300x300 픽셀, SKIRT 라디에이티브 트랜스퍼 코드 사용)

 라벨: 병합 여부는 merger tree 기반으로, ±0.5 Gyr 내 병합 이벤트 유무로 결정됨

 

🔗 IllustrisTNG Project (TNG50 Data)

 

IllustrisTNG - Data Access

Select a simulation to browse the available data files and get direct download links: Show: Primary Volumes Subboxes Simulation families: TNG Illustris Other Types: Baryonic Gravity Only Low Resolution Simulation Name $L_{\rm box} [Mpc]$ $N_{\rm DM}$ $m_{\

www.tng-project.org

 

 

✅ 2. 실제 관측 데이터:

 

📌 HSC-SSP (Hyper Suprime-Cam Subaru Strategic Program)

 용도: 테스트 및 실제 병합 탐지 적용 대상

 이미지 특징: grizy 밴드, 깊은 해상도(r ≈ 26mag)

 공개 버전: Public Data Release 3 (PDR3), S21A 등

 

🔗 HSC-SSP DR3 Data Access Portal

 

 

 

📌 SDSS DR17, GAMA DR4

 용도: HSC와의 크로스매칭으로 정밀 적색이동값(z), 질량(M*), 환경 정보 확보

 조건: 스펙트로스코피 기반 z 값이 있는 은하들만 사용 (z < 0.35, r밴드 밝기 컷 존재)

 

🔗 SDSS DR17 Access

🔗 GAMA DR4 Access

 

 

 

🧪 데이터 구성

출처 목적 내용
TNG50 학습 병합 여부 라벨된 gri 은하 이미지 (~1200장 병합, 1200장 비병합)
HSC-SSP 적용 고해상도 관측 이미지 (~30만 SDSS/GAMA 은하)
SDSS/GAMA 보조정보 질량, z, 환경 정보 매칭 (spec-z 기반)