본문 바로가기
  • 컴공생의 공부 일기
  • 공부보단 일기에 가까운 것 같은
  • 블로그
Club|Project/졸업 연구 | 멀티모달 AI를 이용한 은하 병합 단계 분류

🔭 서울대학교 천문학전공 황호성 교수님 연구 면담

by 정람지 2025. 4. 10.

시드니에 연구년으로 가 계신대ㅠㅠ

바쁘실 텐데

감사감사슨하다

 

 

 


 

[황호성 교수님 면담 내용]

앞쪽 부분 날아감ㅠ

ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ시작 전

 

황호성 교수님 00:00

일단 우리 이메일로 옛날 얘기했던 거랑은 다른 건가요?

 

우리 00:04

맞아요. 원래 적색편이를 주제로 했었는데, 관련 선행연구가 많아서 좀 더 새로운 주제를 찾다 보니 지금 주제로 전환하게 됐어요.

 

황호성 교수님 00:23

그럼 이 연구는 석사 논문 수준인가요, 아니면 학부 텀 프로젝트 수준인가요?

 

우리 00:38

학부 졸업 프로젝트예요. 1년 동안 3명이서 진행하고 있고, 겨울까지가 목표예요.

 

우리 00:56

천문학 지식이 부족할 것 같아서 연세대 천문우주학과 학부생, 석사생 한 명과 협업할 예정이에요.

 

황호성 교수님 01:08

좋은 기회인 것 같고, 주제도 흥미롭네요. 요즘 천문학에서는 대형 망원경으로 관측한 형태 데이터를 바탕으로 은하 분류가 중요한 이슈거든요. 특히 주봇처럼 이미지 기반 분류에 물리량을 더하는 건 매우 좋은 아이디어예요.

 

황호성 교수님 02:55

지금 저랑 고등과학원과 함께 진행 중인 시민과학 프로젝트가 있어요. 주니버스라고 혹시 들어봤나요?

 

우리 03:10

네, 들어본 것 같아요.

 

황호성 교수님 03:11

그걸 통해 AI 트레이닝용 라벨링 데이터셋을 구축 중이에요. 향후 모델을 실제 관측자료에 적용할 때 유용할 수 있어요.

 

우리 05:25

교수님, AI가 천문학계에서 어느 정도 확산되어 있는지, 그리고 멀티모달 AI는 얼마나 사용되고 있는지 궁금합니다.

 

황호성 교수님 05:40

AI 머신러닝 그룹이 한국천문학회 내에 생겼고, 매년 워크숍도 열리고 있어요. 5월에 열리는 워크숍에 가보면 실질적으로 어디에 AI가 쓰이는지 알 수 있어요.

 

한국천문학회

[학회소개, JKAS 및 PKAS, BKAS 학술지, 학술행사일정, 천문용어 검색 제공.]

www.kas.org

 

우리 06:46

이번에 신청해서 들으러 가요.

 

황호성 교수님 06:50

잘 됐네요. 신민수 박사, 홍성욱 박사도 참고하면 좋아요. 다만 AI는 결과는 잘 주지만, 설명 가능성이 떨어져서 자연과학 분야에서는 신중히 써야 해요.

 

우리 08:18

저희 프로젝트는 이미지와 물리량을 매칭해서 멀티모달 아키텍처를 구성하려고 해요. TNG 이미지와 매칭되는 물리량 데이터 추출 방법이 있을까요?

 

황호성 교수님 09:38

이미 잘 정리되어 있어요. TNG에는 은하 목록과 그에 대응되는 물리량들이 테이블로 있고, 필요한 메타데이터 대부분은 수십 개 컬럼으로 제공돼요. 굳이 스펙트럼 분석까지 안 해도 충분할 거예요.

 

우리 11:12

최종 목표는 실제 관측 데이터에도 적용하는 건데, TNG처럼 이미지와 매칭되는 물리량 데이터가 실제 관측 자료에도 있나요?

 

황호성 교수님 11:34

관측 자료도 다 구할 수 있어요. 다만 정보 양은 TNG보다 적고, 일부 물리량만 얻을 수 있기 때문에 다양한 조합으로 실험하는 게 중요해요.

 

우리 12:10

시뮬레이션 데이터라서 실제와 다를까봐 걱정되는데 괜찮을까요?

 

황호성 교수님 12:39

물론 차이는 있어요. 해상도 제한도 있고, TNG가 아무리 현실적으로 만들었다 해도 완벽하지 않아요. 그래서 그런 한계를 인지하고 실험하는 게 중요해요.

 

우리 14:10

주봇이 천문학계에서 파운데이션 모델로 쓰이나요? 다른 추천 모델은 없을까요?

 

황호성 교수님 14:31

형태 분류 모델은 많고, 주봇도 초기 모델 중 하나예요. TNG 분류 연구는 김석 박사가 많이 해놨고, 모델을 직접 개발할지 기존 모델을 수정할지는 프로젝트 난이도에 따라 달라요.

 

우리 15:29

이미지 분류는 기존 모델을 활용하려 하고, 멀티모달을 자체적으로 구성하려고 해요.

 

황호성 교수님 15:58

그 접근 좋아요. 기존 이미지 분류 모델은 그대로 쓰고, 물리량 처리를 잘 결합하면 좋은 아키텍처가 나올 거예요.

 

우리 17:15

사업성을 강조하는 프로젝트가 많다 보니 저희 순수 과학 프로젝트가 어떻게 사회에 기여하는지 설명하기 어려워요.

 

황호성 교수님 17:15

좋은 질문인데, 저희는 그런 사업성 고민은 잘 안 해요. 하지만 AI를 통해 분류나 자동화하는 기술은 마케팅 등에도 유용하다는 점은 어필할 수 있어요.

 

우리 18:59

궁극적으로는 병합 시점을 예측하고 싶은데 가능할까요?

 

황호성 교수님 19:27

사진만으로는 현재 상태밖에 알 수 없지만, 멀지 트리 데이터를 활용하면 과거 병합 이력을 알 수 있어요. 병합의 진화 단계까지 분류하려면 시간에 따른 상태 추적이 필요하긴 해요.

 

우리 21:02

물리량 중 거리, 질량 외에 중요한 게 있을까요?

 

황호성 교수님 21:32

중요한 건 질량, 별 탄생률, 그리고 속도 분산이에요. 속도 분산은 병합 중에 값이 높아지는 경향이 있어서 매우 유용한 피처예요.

 

우리 24:36

TNG 데이터가 너무 방대해서 원하는 정보를 찾기 어려워요. 조언이 있을까요?

 

황호성 교수님 24:57

이미 데이터를 다룬 학생에게 물어보는 게 가장 빠르죠. 저희 팀에 TNG 데이터를 서버에 다 올려둔 학생이 있으니 연결해줄게요.

 

우리 26:38

정답 라벨은 직접 만들어야 하나요?

 

황호성 교수님 26:40

네, 병합 여부는 눈으로 판단하거나, 거리에 따른 필터링과 멀지 트리 데이터를 활용해 자동화할 수 있어요. 병합 단계를 추적하려면 시간축 데이터를 읽고 분석해야 하는데 이건 꽤 어려워요.

 

우리 30:29

멀지 트리에서 최근 병합 여부로 정답 라벨링이 가능할까요?

 

황호성 교수님 31:42

가능해요. 예를 들어 1억 년 이내 병합 여부로 분류하면 정답 생성이 쉬워져요. 여기에 거리 조건을 더해서 병합 유무를 분류하면 돼요.

 

우리 32:30

실제 관측에서도 병합 흔적을 오래된 은하에서 찾을 수 있나요?

 

황호성 교수님 32:49

몇 억 년이 지나면 흔적은 사라지지만, 스펙트럼 분석을 통해 과거 별 형성률 등의 이력을 복원할 수는 있어요.

 

우리 34:19

이미지를 다루는 데 고성능 컴퓨터가 필요했을 것 같은데 어떤 사양을 쓰셨나요?

 

황호성 교수님 34:38

우리는 최근에 GPU 머신을 도입했어요. 테스트는 구글 Colab에서 하고, 괜찮으면 서버로 넘어가는 방식으로 작업했어요. 필요하면 우리 서버도 연결해줄 수 있어요. 천문학을 도메인으로 선택한 이유가 있나요?

 

우리 39:02

천문학 프로젝트를 하게 된 이유는, 우주에 대한 관심과 오픈된 방대한 데이터, 그리고 멀티모달 적용 가능성 때문이에요.

 

황호성 교수님 39:57

잘 선택했네요. 메일로 필요한 자료와 대학원생 연락도 도와줄게요.

 

 

 

 

감사무새

근데 연구실 gpu 쓸 수 있게 해주시겠다고도 하고

대학원생분 연결시켜주신다고도 하고

나중에 한국 가면 대면으로 한번 보자고도 하시고

감사하자나ㅠ

 

 


 


✅ 사용 데이터 및 라벨링

 TNG(TNG50 등) 시뮬레이션 데이터를 기반으로 학습:

 은하별 이미지 데이터

 은하별 물리량 (질량, 별 탄생률, 속도 분산 등)

 스펙트럼은 별도로 활용할 필요는 없음 (이미 분석된 물리량 존재)

지 트리(Merger Tree)를 활용하면 병합 이력을 알 수 있음.

 최근 1억 년 내 병합 여부를 기준으로 병합/비병합 라벨 생성 가능.

 현재 병합 여부는 거리 조건을 추가하여 보완 가능.

 

 

✅ 모델 구성 및 활용

 이미지 분류 모델은 주봇 등 기존 모델 사용 가능, 커스터마이징 또는 fine-tuning 가능.

 멀티모달 구조에서:

 이미지와 메타데이터(물리량)을 정확히 매칭하는 구조 설계가 중요.

 이미지 처리 모델과 수치 데이터 처리 모델을 각각 학습시켜 결합하는 방식 제안.

 

 

✅ 실제 관측 데이터 적용

 최종 목표는 실제 관측 데이터에 적용하는 것.

 관측 데이터는 일부 물리량만 제공되므로 TNG에서 변수 수를 줄여가며 실험하는 접근 추천.

 병합 흔적은 보통 몇 억 년 후 사라지므로 최근 병합만 예측 가능.

 스펙트럼 분석을 통해 별 생성 이력을 역산해 병합 흔적을 추정하는 것도 가능.

 

 

✅ 실행 환경 및 리소스

 TNG 데이터는 매우 크므로 로컬에서는 비효율적, 서버 사용 추천.

 황 교수님 팀에서 TNG 전체 데이터를 보유 중, 대학원생과 연결해주겠다고 함.

 정답 데이터 생성은 멀지 트리 + 거리 조건 기반 자동 라벨링 + 눈으로 확인하는 방식 추천.

 모델 학습에는 구글 Colab 수준에서도 충분, 필요 시 교내 서버나 교수님 서버 제공 가능.

 

 

✅  조언 및 참고사항

 기대효과는 “우주 진화 이해에 기여”, “AI를 통한 분류 자동화”, “멀티모달 AI 확장 가능성” 등으로 서술.

 관련 프로젝트로 주니버스 시민과학 프로젝트 언급, 추후 관측 데이터와 연결 가능성 있음.

 병합 단계 추적 등 고난이도 분석은 대학원 수준 과제, 현재는 병합 유무 구분에 집중 추천.

 

 

🔗 후속 조치 제안

 황 교수님이 TNG 데이터를 잘 아는 대학원생 소개 및 메일 연결 예정.

 김석 박사의 TNG 분류 논문/연구 참고 가능성 있음 → 관련 자료도 추후 전달 예정.