Denoising Diffusion Probabilistic Models
We present high quality image synthesis results using diffusion probabilistic models, a class of latent variable models inspired by considerations from nonequilibrium thermodynamics. Our best results are obtained by training on a weighted variational bound
arxiv.org
초록 (Abstract)
우리는 비평형 열역학(non-equilibrium thermodynamics)에서 영감을 받은 잠재 변수 모델(latent variable model)의 일종인 확산 확률 모델(diffusion probabilistic models)을 사용하여 고품질 이미지 합성 결과를 제시한다. 가장 뛰어난 결과는, 확산 확률 모델과 Langevin 동역학을 활용한 노이즈 제거 스코어 매칭(denoising score matching) 간의 새로운 연결 고리를 기반으로 설계된 가중 변분 경계(weighted variational bound)를 학습함으로써 얻었다.
우리의 모델은 점진적인 손실 압축(progressive lossy decompression) 방식도 자연스럽게 받아들일 수 있는데, 이는 오토리그레시브 디코딩의 일반화로 해석할 수 있다. 비조건부(unconditional) CIFAR10 데이터셋에서, 우리는 Inception Score 9.46, FID(Frechet Inception Distance) 3.17이라는 최첨단 성능을 기록하였다. 256x256 해상도의 LSUN 데이터셋에서는 ProgressiveGAN과 유사한 수준의 샘플 품질을 달성하였다. 우리의 구현 코드는 다음 주소에서 확인할 수 있다: https://github.com/hojonathanho/diffusion
Introduction
최근 들어 다양한 데이터 형태에 대해 고품질 샘플을 생성하는 딥 생성 모델(deep generative models)들이 두각을 나타내고 있다. GAN(생성적 적대 신경망), 오토리그레시브 모델, 플로우 기반 모델, 변분 오토인코더(VAE) 등은 인상적인 이미지와 오디오 샘플을 생성해왔다 [14, 27, 3, 58, 38, 25, 10, 32, 44, 57, 26, 33, 45]. 또한 에너지 기반 모델링(energy-based modeling)과 스코어 매칭(score matching)의 비약적인 발전으로, GAN과 비교 가능한 수준의 이미지 생성도 이루어졌다 [11, 55].
본 논문은 확산 확률 모델(diffusion probabilistic models), 이하 “확산 모델(diffusion model)”에 대한 발전을 다룬다. 확산 모델은 변분 추론(variational inference)을 통해 학습된 파라미터화된 마르코프 체인으로, 유한 시간 내에 데이터와 유사한 샘플을 생성하도록 한다. 이 마르코프 체인의 전이는 원래의 확산 과정(샘플링의 반대 방향에서 점진적으로 데이터에 노이즈를 추가하는 과정)을 역전시키도록 학습된다. 특히 확산이 작은 양의 가우시안 노이즈로 구성된 경우, 샘플링 과정 또한 조건부 가우시안으로 구성할 수 있어 신경망 파라미터화가 매우 간단해진다.
확산 모델은 정의하기 쉽고 학습 효율도 좋지만, 지금까지는 고품질 샘플을 생성할 수 있다는 명확한 증거는 없었다. 우리는 이번 연구를 통해, 확산 모델이 실제로 매우 고품질의 샘플을 생성할 수 있음을 보여준다(4장 참조). 어떤 경우에는 기존 생성 모델들의 공개된 결과보다 더 나은 품질도 달성했다.
또한, 특정한 파라미터화 방식을 통해 학습 중 여러 노이즈 수준에서의 노이즈 제거 스코어 매칭과의 동등성, 샘플링 중에는 annealed Langevin dynamics와의 동등성이 드러난다는 점도 보여준다(3.2절 참조) [55, 61]. 우리의 최고 성능은 이 파라미터화를 통해 얻어졌으며(4.2절), 이 동등성 발견은 본 논문의 주요 기여 중 하나라 할 수 있다.
다만, 샘플 품질이 우수함에도 불구하고, 우리의 모델은 다른 likelihood 기반 모델들과 비교할 때 로그 가능도(log likelihood)가 낮다. (그러나 annealed importance sampling을 사용할 때 보고된 에너지 기반 모델이나 스코어 매칭보다 로그 가능도가 더 우수하긴 하다 [11, 55].) 우리의 분석에 따르면, 모델의 손실 없는 코딩 길이 대부분은 인간이 인식하지 못하는 이미지 세부 정보를 설명하는 데 소모된다(4.3절 참조). 우리는 이를 손실 압축(lossy compression)의 언어로 좀 더 정교하게 분석하였고, 확산 모델의 샘플링 과정이 비트 순서를 따라 진행되는 점진적 디코딩 방식(progressive decoding)이라는 것을 보였다. 이 과정은 오토리그레시브 모델보다 훨씬 일반화된 방식으로 작동한다.
✅ 1. 배경 및 동기
• 최근 GAN, VAE, Autoregressive, Flow 기반 생성 모델들이 이미지·오디오 생성에서 뛰어난 성과를 보여왔음.
• 본 논문은 확산 확률 모델(Diffusion Probabilistic Models)을 통해 고품질 이미지 생성을 달성하고자 함.
✅ 2. 확산 모델이란?
• Markov Chain 기반의 생성 모델로, 데이터에 점진적으로 가우시안 노이즈를 추가하는 확산 과정을 거꾸로 되돌리는 방향으로 학습함.
• 학습은 변분 추론(variational inference)을 사용하고, 생성은 조건부 가우시안 분포로 모델링하여 간단한 신경망 구조로 구현 가능.
✅ 3. 주요 기여
• Langevin dynamics 기반 denoising score matching과의 이론적 연결성을 제시함.
• 이 연결을 활용한 파라미터화로 샘플 품질 향상.
• 점진적 손실 압축 방식(progressive lossy decompression)을 제안, 이는 오토리그레시브 디코딩의 일반화로 해석 가능.
✅ 4. 성능
• CIFAR10: Inception Score 9.46, FID 3.17 (SOTA 수준)
• LSUN 256x256: ProgressiveGAN과 유사한 품질의 이미지 생성
• 다만, 로그 가능도(log-likelihood)는 낮음, 대부분의 정보는 인간이 인식 못 하는 미세한 이미지 세부 묘사에 사용됨.
'Club|Project > Euron | AI,데이터분석 학회' 카테고리의 다른 글
디퓨전 DDPM: Denoising DiffusionProbabilistic Models 발표 정리 (0) | 2025.04.08 |
---|---|
😛 Clip 유런 발표 : Learning Transferable Visual Models From Natural Language Supervision (0) | 2025.04.08 |
✳️ 유런 DQN 발표 정리 (0) | 2025.04.01 |
✳️[ Playing Atari with Deep Reinforcement Learning ] 논문 리뷰 (0) | 2025.03.30 |
🪼 강화 학습-마르코프 결정 과정 : 딥러닝 파이토치 교과서 (0) | 2025.03.28 |