본문 바로가기
  • 컴공생의 공부 일기
  • 공부보단 일기에 가까운 것 같은
  • 블로그
Club|Project/Euron | AI,데이터분석 학회

❇️ [DENOISING DIFFUSION IMPLICIT MODELS] 인트로 리뷰

by 정람지 2025. 6. 3.

ABSTRACT

우리는 객체 탐지를 위한 새로운 접근 방식인 YOLO를 제안한다. 기존 객체 탐지 연구는 분류기를 재활용하여 탐지를 수행하지만, 우리는 객체 탐지를 공간적으로 분리된 바운딩 박스와 관련된 클래스 확률로의 회귀 문제로 정의한다. 하나의 신경망이 전체 이미지를 입력받아 바운딩 박스와 클래스 확률을 단 한 번의 평가로 직접 예측한다. 탐지 파이프라인 전체가 하나의 네트워크로 구성되어 있기 때문에, 탐지 성능을 기준으로 엔드 투 엔드 학습이 가능하다.

 

우리의 통합된 아키텍처는 매우 빠르다. 기본 YOLO 모델은 초당 45프레임으로 이미지를 실시간 처리할 수 있으며, 더 작은 버전인 Fast YOLO는 무려 초당 155프레임을 처리하면서도 다른 실시간 탐지기보다 두 배 이상의 mAP 성능을 보인다.

 

최신 탐지 시스템과 비교했을 때, YOLO는 위치(Localization) 오류는 다소 많지만, 배경에 대해 잘못된 탐지를 할 확률은 낮다. 마지막으로, YOLO는 객체에 대한 일반화된 표현을 학습한다. 자연 이미지에서 학습한 모델이 예술 작품과 같은 다른 도메인에서도 뛰어난 성능을 보인다.

 


INTRODUCTION

🧩 기존 문제 인식

  • 객체 탐지는 오랫동안 컴퓨터 비전의 핵심 문제였고, 대부분의 연구는 sliding window 방식이나 region proposal 기반 접근을 사용해 왔다.
  • 기존 탐지기(ex. R-CNN, DPM)는 보통 다음과 같은 단계로 구성된다:
    1. 입력 이미지에서 많은 후보 영역(region)을 생성
    2. 각 영역에 대해 CNN을 이용해 분류
    3. 후처리(NMS, bounding box regression 등)로 최종 결과 생성
  • 이러한 파이프라인은 느리고, 여러 구성요소를 조정하기 어려우며, end-to-end로 학습되기 어렵다.

 

 

🚀 YOLO의 핵심 아이디어

  • YOLO는 탐지를 단일 회귀 문제로 재정의한다:
    • 이미지 전체를 입력으로 받아
    • 고정된 그리드로 나눈 후
    • 각 그리드 셀이 특정 수의 바운딩 박스와 클래스 확률을 예측하도록 한다
  • 이 방식은 이미지 분류처럼 단순하며, 단일 CNN만으로 구현된다.

 

⚡ 실시간 성능 강조

  • YOLO는 기존 탐지기보다 수십 배 빠르며, 정확도 역시 경쟁력 있음
  • Fast YOLO: 155 FPS / Base YOLO: 45 FPS

 

🧠 일반화 능력

  • YOLO는 다양한 이미지 도메인(예: 예술 작품)에서도 높은 성능을 보임
  • 이는 YOLO가 객체에 대한 일반적이고 강력한 특징 표현을 학습했기 때문