본문 바로가기
  • 컴공생의 공부 일기
  • 공부보단 일기에 가까운 것 같은
  • 블로그

Club374

[SegFormer: Simple and Efficient Design for Semantic Segmentation with Transformers] 논문 Abstract 우리는 SegFormer라는 간단하고 효율적이면서도 강력한 의미론적 분할 프레임워크를 제안한다. 이 프레임워크는 Transformer 기반 인코더와 경량 MLP 디코더를 통합한 구조다. SegFormer는 다음과 같은 두 가지 주요 특징을 가진다: SegFormer는 계층적 구조의 Transformer 인코더를 도입하여 멀티스케일 피처를 출력한다. 이 인코더는 포지셔널 인코딩을 필요로 하지 않기 때문에, 테스트 시 해상도가 학습 시와 다를 경우 발생할 수 있는 성능 저하를 피할 수 있다.SegFormer는 복잡한 디코더를 피한다. 제안된 MLP 디코더는 다양한 레이어에서 정보를 집계하며, 이를 통해 로컬 어텐션(local attention)과 글로벌 어텐션(global attention).. 2025. 7. 5.
[컴퓨터비전 2025] Lecture 18. Multimodal Learning 강의 정리 안락한 쓰레기통 생활 이후..계절/토플/우주연구 개강.. 오랜만에 소은한나 만나서 멀모 강의 듣기데이터를 저장하는 형식이 여러 가지형식이 다른 데이터들을 종합적으로 활용하는 방식 오토매틱 스피치 리코그네이션 ASR (받아쓰기)VQA : 이미지를 보고 질문을 텍스트로 주면은 그거에 대한 답을 텍스트로 생성하는 문제 로컬라이제이션 이제 그냥 거의 다 트랜스포머쌍데이터 구하기 BERT트랜스포머 인코더를 이용해서 워드 임베딩을 학습하는 모델인풋으로 두 개의 문장을 받 VL-BERT이미지 한 장과 문장 하나 VQA질문에 대한 문장, 답에 대한 문장 MLM+ 이미지 임베딩 하나 더 (비주얼적 토큰들도 적용 VilBERTCo - TRM 상대방을 참조하는 그 크로스 모델 어텐션 Transformer-based .. 2025. 6. 30.
✳️ 유런 방학 프로젝트 : 자율주행 차량 시점 영상에서 도로/차선/보행자 Segmentation 예지가 준비한 프로젝트를 하게 됐다. 예지가 정리해준 내용!주제 : 자율주행 차량 시점 영상에서 도로/차선/보행자 Segmentation: 자율주행 차량의 전방 카메라 영상에서 도로, 차선, 사람 같은 요소들을 픽셀 단위로 분류하는 AI 모델을 구현해보기1. 주제 선정했던 이유: 자율주행에서는 주변 환경을 인식하는 게 아무래도 가장 중요한 부분인데, 특히 운전할 때 도로 위 물체들을 정확하게 분류하는 게 안전하게 주행하고, 위험 요소들은 회피하게 하는 판단에 직접적으로 영향을 주게 된다. YOLO처럼 클래스 박스로 감지하는 객체 인식보다 픽셀 단위로 훨씬 더 정밀하게 인식할 수 있는 게 Semantic Segmentation이고, 실제 ADAS(자율주행) 기술에서도 많이 활용되는 기술이다.2. 활용할 수.. 2025. 6. 25.
❇️ [EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks] 리뷰 아래는 EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks 논문에 대한 요청하신 형식의 리뷰다: 1. 🧾 논문 개요 이 논문은 ConvNet(Convolutional Neural Network)을 효과적으로 스케일링하는 방법을 체계적으로 분석하고, 폭(width), 깊이(depth), 해상도(resolution)를 균형 있게 동시에 확장하는 새로운 복합 스케일링(compound scaling)방식을 제안한다. 이를 기반으로 NAS(Neural Architecture Search)로 설계한 경량 베이스라인 네트워크(EfficientNet-B0)를 출발점으로 EfficientNet-B7까지 모델 계열을 확장하고, ImageNe.. 2025. 6. 24.
❇️ [KTO: Model Alignment as Prospect Theoretic Optimization] 인트로 리뷰 ABSTRACTKahneman과 Tversky의 전망이론(prospect theory)은 인간이 확률 변수를 편향되었지만 일정한 방식으로 지각한다는 것을 보여준다(1992); 예를 들어, 인간은 손실 회피 성향(loss aversion)으로 유명하다. 우리는 LLM을 인간 피드백에 맞게 정렬(alignment)하는 데 사용되는 목표 함수들이 이러한 인간의 편향을 암묵적으로 포함하고 있음을 보여준다 — 이러한 목표 함수들(DPO 등)이 단순한 교차 엔트로피 최소화보다 더 나은 성능을 보이는 이유는 이들이 우리가 인간 인지에 기반한 손실 함수(human-aware losses, HALOs)라 부르는 함수군에 속하기 때문이다. 그러나 이러한 방법들이 가정하는 인간의 효용 함수는 기존 전망이론 문헌의 효용 함수.. 2025. 6. 24.
🛡️ UCPC 7차 회의 보호되어 있는 글 입니다. 2025. 6. 16.
중간보고서 : 은하 병합 여부 및 단계를 분류하는 이미지-수치기반 멀티모달AI 모델 개발 히히 교수님이 극칭찬해주셨다! ㅎㅎ 쿠르크제작트 미안해요...>!링크만 공개로 했어요.>>,,,,!ㅠ딱 교수님만 보실 거예요너무 딱 맞는 영상이라서요...ㅠㅠㅠㅠㅠ 2025. 6. 14.
💥 SYNERGI - 대면 회의 1 TNG 시뮬레이션 기반 은하 병합 분류를 위한 멀티모달 AI 모델 구축예약한 강의실이.. 이런 모양일 줄은 몰랐지✅ 데이터셋 - 이미지이미지 해상도: 400×400으로 고정.이미지 생성 방법: TNG 시뮬레이션에서 뷰어 사용해 생성 (파이 XP GPO 기반).SDSS r밴드 기준으로 스텔라 파티클만 활용.배경 성분(별/가스 등)이 제외되기 때문에 실제 관측과 차이가 있음.중심을 stellar mass 중심으로 재정렬하여 균일한 crop 수행하기스냅샷 범위: 91~99 사용 (필요시 80까지 확장 가능)중복 사용: 동일 은하가 여러 스냅샷에 포함되어도 문제 없음 (물리량이 달라지므로 중복학습 위험 낮음)프리/포스트 머저 샘플 수: 총 약 500개 확보 예상생성 속도: 은하 1개당 1분 이내 생성 가능.관측.. 2025. 6. 7.
❇️ [DENOISING DIFFUSION IMPLICIT MODELS] 인트로 리뷰 ABSTRACT우리는 객체 탐지를 위한 새로운 접근 방식인 YOLO를 제안한다. 기존 객체 탐지 연구는 분류기를 재활용하여 탐지를 수행하지만, 우리는 객체 탐지를 공간적으로 분리된 바운딩 박스와 관련된 클래스 확률로의 회귀 문제로 정의한다. 하나의 신경망이 전체 이미지를 입력받아 바운딩 박스와 클래스 확률을 단 한 번의 평가로 직접 예측한다. 탐지 파이프라인 전체가 하나의 네트워크로 구성되어 있기 때문에, 탐지 성능을 기준으로 엔드 투 엔드 학습이 가능하다. 우리의 통합된 아키텍처는 매우 빠르다. 기본 YOLO 모델은 초당 45프레임으로 이미지를 실시간 처리할 수 있으며, 더 작은 버전인 Fast YOLO는 무려 초당 155프레임을 처리하면서도 다른 실시간 탐지기보다 두 배 이상의 mAP 성능을 보인다... 2025. 6. 3.
❇️ [YOLO: You Only Look Once: Unified, Real-Time Object Detection] 리뷰 므엥✳️ 논문 리뷰 1. 🧾 논문 개요이 논문은 객체 탐지를 위한 새로운 방식인 YOLO (You Only Look Once)를 제안한다. 기존의 R-CNN이나 DPM 방식과 달리 YOLO는 이미지를 한 번만 보고 동시에 여러 객체의 경계 상자와 클래스 확률을 예측한다. 이를 통해 객체 탐지 과정을 단일 신경망으로 통합하고, 학습 및 추론 속도를 대폭 향상시켰다. YOLO는 전체 이미지를 입력으로 받아 전역적인 문맥을 반영할 수 있으며, 실시간 처리 속도(45fps, Fast YOLO는 155fps)와 함께 경쟁력 있는 성능을 달성하였다.2. 🎯 주요 기여탐지 과정의 통합: 객체 탐지를 이미지 분류처럼 단일 회귀 문제로 간주하여 전체 탐지 파이프라인을 하나의 CNN으로 단순화함.실시간 성능: YOLO.. 2025. 6. 3.