Club|Project/Euron | AI,데이터분석 학회35 ❇️ [DENOISING DIFFUSION IMPLICIT MODELS] 인트로 리뷰 ABSTRACT우리는 객체 탐지를 위한 새로운 접근 방식인 YOLO를 제안한다. 기존 객체 탐지 연구는 분류기를 재활용하여 탐지를 수행하지만, 우리는 객체 탐지를 공간적으로 분리된 바운딩 박스와 관련된 클래스 확률로의 회귀 문제로 정의한다. 하나의 신경망이 전체 이미지를 입력받아 바운딩 박스와 클래스 확률을 단 한 번의 평가로 직접 예측한다. 탐지 파이프라인 전체가 하나의 네트워크로 구성되어 있기 때문에, 탐지 성능을 기준으로 엔드 투 엔드 학습이 가능하다. 우리의 통합된 아키텍처는 매우 빠르다. 기본 YOLO 모델은 초당 45프레임으로 이미지를 실시간 처리할 수 있으며, 더 작은 버전인 Fast YOLO는 무려 초당 155프레임을 처리하면서도 다른 실시간 탐지기보다 두 배 이상의 mAP 성능을 보인다... 2025. 6. 3. ❇️ [YOLO: You Only Look Once: Unified, Real-Time Object Detection] 리뷰 므엥✳️ 논문 리뷰 1. 🧾 논문 개요이 논문은 객체 탐지를 위한 새로운 방식인 YOLO (You Only Look Once)를 제안한다. 기존의 R-CNN이나 DPM 방식과 달리 YOLO는 이미지를 한 번만 보고 동시에 여러 객체의 경계 상자와 클래스 확률을 예측한다. 이를 통해 객체 탐지 과정을 단일 신경망으로 통합하고, 학습 및 추론 속도를 대폭 향상시켰다. YOLO는 전체 이미지를 입력으로 받아 전역적인 문맥을 반영할 수 있으며, 실시간 처리 속도(45fps, Fast YOLO는 155fps)와 함께 경쟁력 있는 성능을 달성하였다.2. 🎯 주요 기여탐지 과정의 통합: 객체 탐지를 이미지 분류처럼 단일 회귀 문제로 간주하여 전체 탐지 파이프라인을 하나의 CNN으로 단순화함.실시간 성능: YOLO.. 2025. 6. 3. ❇️ [GPT-3: Language Models are Few-Shot Learners] 인트로 리뷰 Abstract최근 연구들은 대규모 텍스트 코퍼스에 대한 사전 학습(pre-training) 후 특정 태스크에 대한 파인튜닝(fine-tuning)을 수행함으로써 다양한 자연어처리(NLP) 과제에서 큰 성능 향상을 이루었다. 이러한 방식은 보통 태스크에 독립적인 아키텍처를 사용하지만, 여전히 수천에서 수만 개의 예시가 포함된 태스크 전용 데이터셋이 필요하다는 한계가 있다. 반면, 인간은 보통 단 몇 개의 예시나 간단한 지시만으로도 새로운 언어 과제를 수행할 수 있다. 현재의 NLP 시스템은 이러한 능력을 대부분 갖추지 못하고 있다. 본 논문에서는 언어 모델의 규모를 확장하면 태스크에 특화되지 않은(few-shot) 상황에서도 성능이 크게 향상된다는 것을 보인다. 우리는 1,750억 개의 파라미터를 가진 .. 2025. 5. 26. ❇️ [BLIP: Bootstrapping Language-Image Pre-training forUnified Vision-Language Understanding and Generation] 논문 리뷰 므엥✳️ 논문 리뷰 1. 🧾 논문 개요이 논문은 다양한 비전-언어(Vision-Language) 태스크에 범용적으로 활용 가능한 통합 사전학습 프레임워크인 BLIP을 제안한다. 기존 VLP(Vision-Language Pretraining) 모델들은 주로 이해 기반 또는 생성 기반 태스크 중 하나에만 특화되어 있었던 반면, BLIP은 양쪽 모두를 효과적으로 처리할 수 있도록 설계되었다. BLIP은 두 가지 핵심 기여를 통해 이를 달성한다: 모델 측면: 새로운 아키텍처인 Multimodal Mixture of Encoder-Decoder (MED).데이터 측면: 웹 이미지-텍스트 쌍의 품질을 개선하는 CapFilt (Captioning + Filtering).2. 🎯 주요 기여다운스트림 태스크: COC.. 2025. 5. 26. ❇️ [Masked Autoencoders Are Scalable Vision Learners] 논문 발표 준비 에그타르트(big), 곤약젤리, 티즐, 삼김, 단백이, ❇️ 발표문 #1-1. 컴퓨터 비전에서의 표현 학습 한계 CNN을 기반으로 한 컴퓨터 비전의 대표적인 성공은 ImageNet 사전학습입니다.하지만 그 성공은 라벨링된 수백만 장의 이미지에 기반하고 있습니다.이제는 ViT 같은 대형 모델들이 등장했는데, 이런 모델은 ImageNet만으로는 부족합니다.실제로, 기존 연구들은 수억 장 규모의 비공개 데이터셋(JFT 등)에 의존하고 있고,일반 연구자나 기업 입장에서 접근이 어렵습니다.그러면 어떻게 해야 할까요?NLP처럼, 라벨 없이도 표현을 학습할 수는 없을까요? >여기 보시는 그래프는 모델 크기에 따른 성능 비교입니다.기존의 Vision Transformer는 JFT-300M과 같은 거대한 라벨링 .. 2025. 5. 19. ✳️ [Swin Transformer: Hierarchical Vision Transformer using Shifted Windows] 인트로 리뷰 + 발표자료 보호되어 있는 글 입니다. 2025. 5. 19. ✳️ [Masked Autoencoders Are Scalable Vision Learners] 논문 읽기 📘 ABSTRACT 이 논문은 Masked Autoencoder(MAE)가 컴퓨터 비전에서 확장 가능한 자가 지도 학습 방법임을 보여준다. 우리의 MAE 접근법은 간단하다: 입력 이미지의 일부 패치를 무작위로 마스킹하고, 누락된 픽셀을 복원하는 것이다. 이 방법은 두 가지 핵심 설계에 기반한다. 첫째, 비대칭적인 인코더-디코더 구조를 설계했다. 인코더는 마스크된 토큰 없이 보이는 패치에만 작동하고, 디코더는 잠재 표현(latent representation)과 마스크 토큰을 이용해 원래 이미지를 복원한다.둘째, 입력 이미지의 상당 비율(예: 75%)을 마스킹하는 것이 의미 있는 자가 지도 학습 과제를 형성한다는 점을 발견했다. 이 두 설계를 결합함으로써, 우리는 대규모 모델을 효율적이고 효과적으로 학습.. 2025. 5. 14. ✳️ [Auto-Encoding Variational Bayes] 논문 리뷰 ✳️ 논문 리뷰 1. 🧾 논문 개요이 논문은 복잡한 연속 잠재 변수를 포함한 생성 모델에서 효율적인 추론과 학습을 가능하게 하는 변분 베이즈 추론 방법을 제안한다. 저자들은 Stochastic Gradient Variational Bayes (SGVB) 추정기를 기반으로 한 Auto-Encoding Variational Bayes (AEVB) 알고리즘을 개발하여, 대규모 데이터셋에서도 효율적인 근사 posterior 추론 및 학습을 가능하게 만들었다. 특히 인코더(추론 모델)와 디코더(생성 모델)를 신경망으로 구성한 Variational Autoencoder (VAE) 구조가 등장하게 된 결정적인 논문이다.2. 🎯 주요 기여✅ SGVB 추정기 제안: 미분 가능한 형태로 변분 하한(ELBO)을 추정할 .. 2025. 5. 12. ✳️ [Rainbow: Combining Improvements in Deep Reinforcement Learning] 인트로 리뷰 중간고사,,,,,가 드디어 끝 ✳️ 번역초록 (ABSTRACT)우리는 강화학습에서 사용할 수 있는 새로운 계열의 정책 경사(policy gradient) 알고리즘을 제안한다. 이 방법은 환경과의 상호작용을 통해 데이터를 샘플링하고, 확률적 경사 상승법(stochastic gradient ascent)을 통해 “대리 목적 함수(surrogate objective)“를 최적화하는 과정을 번갈아 수행한다. 기존의 정책 경사 방법들이 샘플 하나당 한 번의 경사 업데이트만 수행하는 반면, 우리는 미니배치(minibatch) 방식으로 여러 에폭(epoch)의 업데이트가 가능한 새로운 목적 함수를 제안한다.우리가 제안하는 새로운 방법인 Proximal Policy Optimization(PPO)은 Trust Regi.. 2025. 5. 12. ✳️ [PPO: Proximal Policy Optimization Algorithms] 인트로 리뷰 https://arxiv.org/pdf/1707.06347 PPO 예전에 살짝 공부했었던강화학습리워드모델 거리Abstract우리는 강화학습을 위한 새로운 계열의 정책 경사(policy gradient) 알고리즘을 제안한다. 이 알고리즘은 환경과의 상호작용을 통해 데이터를 샘플링하고, 확률적 경사 상승법(stochastic gradient ascent)을 이용해 “대리(surrogate)” 목적 함수를 최적화하는 과정을 번갈아 수행한다. 기존의 표준 정책 경사 알고리즘은 각 데이터 샘플마다 한 번의 경사 업데이트를 수행하는 반면, 본 논문에서는 미니배치(minibatch) 기반의 다중 에폭(epoch) 업데이트를 가능하게 하는 새로운 목적 함수를 제안한다. 이 새로운 방법을 Proximal Policy O.. 2025. 5. 5. 이전 1 2 3 4 다음