🔭 경희대학교 우주과학과 문용재 교수님 연구 면담
도키도키
준비
조용한 곳으로 피신
[문용재 교수님 면담 내용]
(앞부분 녹음 ㅠㅠ 안 눌림)
교수님:
연결되는 데이터를 확보할 수 있는지가 핵심 문제로 보입니다. 지금 이미지가 1억 개나 존재하는데, 이게 어떤 방식으로든 도플러 시프트든 뭐든 간에 페어(pair)로 구성돼야 멀티모달 모델로 만들 수 있잖아요?
그런데 그게 실제로 가능한지 의문입니다. 그리고 현재 라벨링은 어느 정도 되어 있나요?
우리:
라벨링은 선행 연구를 기반으로 할 계획이라 가능은 할 것 같습니다. 다만, 아직 완전히 진행된 건 아닙니다.
교수님:
그 논문에서는 성공률이 어느 정도로 나왔어요?
우리:
70% 정도였습니다. 기존 연구는 은하 분류가 아니라 별이나 천체 전체를 대상으로 멀티모달 모델을 사용한 것이었는데, 단일 모델 대비 성능 향상이 있었습니다. 그래서 우리도 이번에 은하 병합 모델에 멀티모달 방식을 도입하면 성능을 더 끌어올릴 수 있을 것으로 기대하고 있습니다.
교수님:
그 논문에서 멀티모달로 사용한 데이터는 구체적으로 어떤 거였어요?
우리:
스펙트럼과 이미지를 함께 사용한 것으로 파악했습니다.
교수님:
그럼 그 논문은 스펙트럼 데이터를 이미 확보하고 있었겠군요.
우리:
네, 정확히 기억은 안 나지만 SDSS(슬론 디지털 스카이 서베이) 데이터를 사용한 것으로 보입니다.
교수님:
그렇죠. 나는 태양 관측을 주로 하기 때문에 은하는 잘 모르지만, SDSS는 아주 유명한 광학 서베이 데이터입니다. 아마 생존하는 데이터 중 가장 넓은 지역을 커버할 겁니다. 그중 일부는 스펙트럼 데이터도 포함하고 있을 거고요.
그런데 그 논문은 데이터 몇 개로 실험했는지 기억나요?
우리:
사실 논문을 어제 읽어서 정확히 기억은 나지 않습니다.
교수님:
그럼 일단 그 논문에서 사용한 데이터를 확보할 수 있는지를 먼저 확인해야 해요. GitHub나 다른 웹사이트에서 공개되었는지도 보고요.
그리고 우리는 컴퓨터공학과니까, 데이터 자체보다는 방법론(methodology) 중심으로 논문을 써야 합니다. 기존 천문학 연구를 그대로 가져오되, 더 나은 성능을 보이는 컴퓨터공학적 방법으로 개선했다면 학부생 수준에서도 충분히 의미가 있습니다.
그런데 현재 데이터가 멀티모달 구성이 가능한지 여부가 불확실해요. 논문을 정확히 이해하고, 데이터를 확장할 것인지, 방법론을 확장할 것인지, 아니면 둘 다 확장할지를 결정해야 해요.
먼저 프로토타입이 될 만한 레퍼런스 데이터를 확보하고, 거기서 방법론을 연결해나가는 게 바람직합니다.
교수님:
내가 이 은하 연구를 직접 한 건 오래됐어요. 1990년대 박사과정 때 은하 분류(classification) 연구를 했었고, 그 이후로는 천문학 개론 같은 과목에서 학부생 대상으로 기본적인 내용만 가르쳤습니다.
우리:
은하를 주제로 잡긴 했는데, 천문학 내에서 은하 연구는 얼마나 큰 분야인가요?
교수님:
은하 연구는 중요합니다. 예전에는 우리 은하(Milky Way)만 연구했지만, 지금은 외부은하(extragalactic), 초은하단(supercluster), 우주의 기원과 구조 등 우주론(cosmology) 문제와도 밀접하게 연관되어 있어요.
제임스 웹 우주망원경, 허블 망원경 등이 관측한 대상도 대부분 은하입니다. 특히 제임스 웹은 적외선으로 고적색편이(high redshift) 대상을 관측해 초기 우주의 은하들을 보고 있습니다.
천문학은 과거를 볼 수 있는 거의 유일한 학문입니다. 우주가 약 138억 년 되었다고 할 때, 지금 우리가 보는 건 우주의 아주 초기 모습이에요. 이건 굉장히 놀라운 일이죠.
우리:
저희가 컴퓨터공학과다 보니, 지도교수님은 항상 이 연구가 어떤 가치를 주는지를 궁금해하십니다. 특히 은하 연구가 사람들에게 어떤 의미가 있는지를 설명하기가 어려웠습니다.
교수님:
인간은 물질적 요소 외에도 지적 호기심에서 행복을 느낍니다.
예를 들어, “우주의 초기에 이런 일이 있었다” 같은 이야기는 굉장히 흥미롭잖아요. 모든 사람이 돈이나 기술에만 집중하면, 별을 누가 보여주겠어요?
지식, 지혜, 호기심이라는 인간 본연의 욕구를 충족시키는 것이 바로 순수과학의 가치입니다.
하지만 컴퓨터공학과 지도교수님께 설명할 때는 전략적으로 접근해야 해요. “컴퓨터공학적으로는 이런 메소드가 의미가 있고, 천문학적으로는 이런 과학적 의의가 있다”고 설명해야 설득력이 있습니다.
우리:
지금 천문학 분야에서 AI가 많이 활용되고 있는지도 궁금합니다.
교수님:
우리는 2016년부터 AI를 연구에 활용하기 시작했어요. 알파고 나오기 전부터였고, 컴퓨터공학과 교수님들이 논문이나 저널을 열심히 분석해서 우리 분야에 적용했습니다.
그래서 우리 연구실은 천문학/우주과학 쪽에서 AI를 가장 먼저 도입한 팀 중 하나에요.
사실 지금 AI 자체를 개발하는 건 구글, 딥마인드, 오픈AI 같은 대기업과 경쟁해야 해서 어렵죠.
하지만 우리처럼 도메인 지식을 가진 연구자들이 기존 AI 기술을 응용하는 건 훨씬 경쟁력이 있어요. 방법론만 잘 적용하면 되니까요.
교수님:
AI 시대는 이미 왔습니다. 멀티에이전트 AI, ADI, TV 리서치 등 새로운 트렌드가 계속 나옵니다.
여기서 내가 주류 개발자(모델 자체를 만드는 사람)가 될 것인지, 아니면 이걸 활용해서 다른 도메인에 적용할 사람인지, 이건 개인의 관심사와 맞물려 있는 문제예요.
우리처럼 특정 분야에 특화된 파운데이션 모델을 개발하는 방향도 충분히 의미 있고 경쟁력 있습니다.
우리:
저희는 Zoobot이라는 모델을 찾았는데, 이게 은하 분야에서 파운데이션 모델로 많이 쓰이는 것 같더라고요. 혹시 교수님은 이 모델 아시나요?
교수님:
우리도 지금 파운데이션 모델을 하나 만들고 있긴 한데, Zoobot이라는 이름은 처음 듣네요.
정확한 이름을 이메일로 보내주세요.
우리는 현재 스페이스 웨더(Space Weather) 분야에 적용할 파운데이션 모델을 개발 중이에요.
지금은 태양 관측 데이터를 활용한 모델을 만들고 있고, 아직 완성된 건 아니지만 박사 과정 학생과 함께 단계적으로 업그레이드해나가고 있어요.
우리:
파운데이션 모델을 개발하는 데는 시간이나 비용이 많이 들지 않나요?
교수님:
단계적으로 접근하면 됩니다.
1단계에서는 기존 모델(API 기반)을 연동해서 필요한 정보를 얹어 쓰는 방식으로 시작하고,
2단계에서는 도메인에 맞는 파운데이션 모델로 확장해나가는 거죠.
박사 과정으로 들어오면 더 고도화된 방향으로 계속 이어갈 수 있습니다.
우리:
은하 병합 여부 분류와 관련해서도 몇 가지 질문이 있습니다.
초기에 은하 분류는 연구자가 직접 했고, 시간이 많이 걸려서 Galaxy Zoo처럼 시민 참여 프로젝트가 생겼고, 최근에는 머신러닝 모델로 자동화되는 추세라고 저희가 조사했습니다. 이게 맞는 흐름인가요?
교수님:
맞습니다. 맞는 정보예요.
우리:
그렇다면 이미지 기반 머신러닝만이 아니라 라벨링을 강화해서 멀티모달 데이터를 함께 쓰는 게 더 효과적일지 궁금합니다.
교수님:
은하 분류는 보통 형태학적(morphological) 기준으로 이루어집니다. 눈으로 보고 스파이럴, 타원, 불규칙 은하 등을 분류하는 방식인데, 주관성이 개입되기도 하죠.
그런데 단순한 은하 형태 분류에는 멀티모달 요소가 크지 않아요.
하지만 은하 병합 여부 판별처럼 여러 관측 요소가 필요한 문제에서는 멀티모달 방식이 훨씬 유의미할 수 있습니다.
예를 들어, 단순히 이미지가 겹쳐 보인다고 해서 병합 중인 은하라고 판단할 수 없어요.
그게 실제로 동일한 거리에서 충돌 중인 은하인지 아니면 단순한 시각적 중첩인지 알려면 도플러 시프트를 통해 거리 정보도 함께 알아야 합니다.
교수님:
도플러 시프트로부터 얻은 속도(velocity)는 허블 법칙 V = HR을 통해 거리로 환산됩니다.
그러니까 적색편이(z)를 통해 거리 추정을 하고, 이미지와 결합해서 병합 여부를 판단하는 게 진짜 멀티모달 분석이죠.
이건 훌륭한 아이디어고, 천문학적으로도 의미가 큽니다.
단, 핵심은 충분한 수의 이미지-스펙트럼 쌍 데이터가 존재하느냐, 그리고 그게 라벨링 되어 있느냐입니다. 그게 가능하다면 아주 좋은 연구 주제예요.
우리:
그래서 저희가 연세대 천문학과 석박사 분들과 협업하기로 했습니다. 천문 지식이 부족한 부분은 그분들과 함께 보완하고자 합니다.
교수님:
잘했네요. 아주 잘한 결정입니다.
우리:
또한 지웅배 세종대 교수님을 통해 ‘스페이스 AI’라는 행사도 소개받았고, 참여 여부를 검토 중입니다. 혹시 교수님도 이 행사 아시나요?
교수님:
물론입니다. 천문연구원에서 주관하는 프로그램이고, 제가 처음 기획에 참여했습니다.
지금도 관계하고 있고, 우리 연구실 학생들이 조교로 가장 많이 참여하고 있어요.
우리:
이 프로그램은 우주 산업보다는 순수 과학에 가까운 성격인가요?
교수님:
그렇습니다. 항공우주와는 다릅니다. 스페이스 AI는 우주 과학, 천문학 중심의 프로젝트입니다.
1년 동안 팀을 꾸려서 도메인 과학자, 컴퓨터 과학자, 자원 제공자들이 모여 집단지성을 통해 실제 과학 문제를 해결하는 게 목표입니다.
우리:
참여해보고 싶네요.
교수님:
꼭 해보세요. 좋은 경험이 될 겁니다.
우리:
정말 많은 도움이 되었습니다. 감사합니다.
교수님:
좋은 결과 있길 바랍니다.
ㅋㅋㅋㅋ웃긴 거 지피티가 다 날려보냈네
요약
✅ 1. 데이터 확보 및 멀티모달 구성 가능성
• 은하 병합 여부 분류에는 멀티모달 데이터(이미지 + 스펙트럼) 가 유의미함.
• 스펙트럼 데이터는 도플러 시프트 → 속도 → 거리 추정을 통해 실제 병합 여부 판단에 기여.
• 사용하고자 하는 데이터셋이 충분한 양의 페어 데이터를 포함하고 있고, 라벨링이 되어 있는지 반드시 확인 필요.
• Zoobot은 이미지 기반이므로, 병합 판별에는 한계. 멀티모달 적용이 차별화 포인트가 될 수 있음.
✅ 2. 연구 설계 및 논문 방향
• 우리는 컴퓨터공학과 소속이므로, 논문은 방법론 중심(methodology-focused) 으로 구성되어야 설득력 있음.
• 기존 천문학 논문을 그대로 따라가는 것이 아닌, 기계학습 기법으로 성능을 향상시켰다는 증거가 중요.
• 학부생 수준에서는 기존 방법 대비 성능 향상을 보이는 것만으로도 충분히 좋은 연구 성과.
• “AI가 은하 병합 분류에서 어떻게 유의미한 성능 개선을 보일 수 있는가?”가 중심 질문이어야 함.
✅ 3. 천문학에서 AI 연구의 위치
• 천문학계에서도 AI는 2016년 전후부터 활발히 도입되고 있음.
• 대기업과 AI 기술을 경쟁하기보다는, 도메인 특화 적용이 전략적으로 유리함.
• 특수 분야(예: 스페이스 웨더) 에 특화된 파운데이션 모델 개발이 장기적으로 경쟁력 있음.
✅ 4. 연구 주제의 의의와 설득 전략
• 천문학은 인간의 지적 호기심, 과거에 대한 탐구, 우주의 기원 등 근본적 질문과 연결된 학문.
• 순수과학이라 하더라도, 컴퓨터공학적 기여와 구조적 설계를 강조하면 지도교수님 설득에 효과적.
• “컴공적으로는 이런 메소드의 의미가 있고, 천문학적으로는 이런 과학적 기여가 있다”는 식의 이중 구조가 필요함.
✅ 5. 협업 및 프로그램 참여
• 연세대 천문학과 석박사들과 협업을 시작한 것은 매우 적절한 선택.
• 스페이스 AI 프로그램은 교수님이 직접 기획에 참여했던 프로그램이며, 천문학과 AI 융합 연구의 실제 사례 기반 학습 가능.
• 팀을 이뤄 도메인 전문가 + 컴공 전문가가 함께 과학 문제를 해결하는 구조로 진행됨. 꼭 참여 권장.
멀티디스플리너리?