본문 바로가기
  • 컴공생의 공부 일기
  • 공부보단 일기에 가까운 것 같은
  • 블로그
Club|Project/Euron | AI,데이터분석 학회

✳️[ Playing Atari with Deep Reinforcement Learning ] 논문 리뷰

by 정람지 2025. 3. 30.

(Mnih et al., 2013, DeepMind)

 

Playing Atari with Deep Reinforcement Learning

We present the first deep learning model to successfully learn control policies directly from high-dimensional sensory input using reinforcement learning. The model is a convolutional neural network, trained with a variant of Q-learning, whose input is raw

arxiv.org

 

✳️ 논문 읽기

시간 부족으로 제대로 못 일금..ㅜㅜ


✳️ 논문 정리

🎮 Abstract

딥러닝 기반의 강화학습 모델(DQN)이 원시 시각 입력(픽셀)만 가지고도 아타리 게임에서 인간보다 나은 성능을 낼 수 있다.

 

  • 원시 감각 입력(이미지)으로부터 정책(policy) 을 직접 학습한 최초의 딥러닝 모델 제안
  • CNN + Q-learning 변형 구조 사용

입력: 아타리 게임의 픽셀 이미지.

출력: 각 행동에 대한 Q값 (미래 보상 기대값).

 

7개의 아타리 게임에 적용.

구조나 학습 방법은 모든 게임에 공통으로 사용. ( 단일 신경망 에이전트 )

 

결과:

  • 6개 게임에서 기존 방법보다 우수.
  • 3개 게임에서는 인간 전문가보다 나은 성능.

🎮  Introduction 

고차원 감각 데이터를 이용한 강화학습은 어렵지만, 딥러닝(CNN)을 결합하면 성공적인 제어 정책을 학습할 수 있다.

 

🎯 문제 배경

  • 시각/음성과 같은 고차원 입력을 처리하는 RL은 오래된 도전 과제.
  • 기존에는 대부분 손으로 만든 특징(feature) + 선형 함수 조합 사용.
  • 딥러닝은 이미 이미지, 음성 분야에서 원시 입력으로부터 자동 특징 추출에 성공.

 

❗ 하지만 RL에서는 다음과 같은 난점이 존재:

1. 보상이 희소하고 지연됨.

2. 데이터가 시퀀스 기반으로 상관관계가 큼.

3. 데이터 분포가 학습 도중 계속 바뀜.

4. 지도학습처럼 레이블이 많은 것도 아님.

 

💡 해결 방법

  • CNN을 사용해 비디오 입력에서 특징을 자동 추출.
  • Q-learning의 변형을 사용하여 행동 가치 함수(Q값)를 학습.
  • 경험 재현(Experience Replay): 이전 경험을 무작위 샘플링해서 사용 → 데이터 분포를 안정화.
  • 동일한 네트워크 구조와 하이퍼파라미터로 다양한 게임에 적용 → 일반성 확보.

 

✅ 결과

  • 7개 아타리 게임에 적용.
  • 6개 게임에서 기존 알고리즘보다 성능 우수.
  • 3개는 인간 전문가도 능가.

강화학습의 오래된 과제를 딥러닝(CNN + Q-learning)으로 해결


🎮  Background

🕹️ 에이전트-환경 상호작용 구조

  • 에이전트는 아타리 에뮬레이터와 상호작용하면서, 각 시간 단계마다 행동을 선택하고, 화면 이미지와 보상을 받는다.
  • 내부 상태는 볼 수 없고, 픽셀 기반 시각 정보만 관찰 가능 → 부분 관측 문제(POMDP)

 

🔁 시퀀스 기반 상태 표현

  • 현재 화면만으로는 상황을 완전히 알 수 없기 때문에, 과거 이미지와 행동 시퀀스를 하나의 상태로 사용.
  • 이를 통해 환경을 유한한 MDP로 근사하여 기존 강화학습 방법 적용 가능.

 

🎯 목표와 가치 함수

  • 목표: 미래 보상의 할인 합을 최대화.
  • 최적 Q함수 : 시퀀스 와 행동 에 대해 얻을 수 있는 최대 기대 보상.
  • 벨만 방정식 기반으로 Q함수 반복 업데이트.

 

🧠 Q-네트워크 (Q-network)

  • Q함수를 근사하기 위해 신경망 사용.
  • 반복적으로 손실 함수를 최소화하여 학습.
  • 타깃값은 이전 네트워크 출력 사용:

 

⚙️ 학습 방식의 특징

  • 모델 프리 (model-free): 환경 모델 없이 샘플 기반 학습.
  • 오프-폴리시 (off-policy): 실제 행동은 탐험(ε-greedy), 학습은 최적 행동 기준.
  • 률적 경사 하강법(SGD) 으로 Q-네트워크 학습.

 

에이전트는 화면 이미지 시퀀스를 바탕으로 Q-네트워크를 통해 가치 함수를 근사하며, 벨만 방정식 기반으로 딥 Q-learning을 수행

🎮 Deep Reinforcement Learning

 

 RGB 이미지와 같은 원시 입력(raw input) 을 그대로 받아들여,

딥러닝 기반 Q-learning 을 통해 행동 정책을 학습하는 강화학습 시스템 구축.

 

 

1. 기존 방식(TD-Gammon)의 한계와 새로운 시도

  • TD-Gammon은 on-policy, 자기 플레이(self-play) 방식으로 학습하며 단순한 MLP 구조 사용.
  • 하지만 우리는 비선형 딥 신경망, 현대적 하드웨어, 스케일 가능한 알고리즘을 통해 그보다 진보된 성능을 노림.

2. Experience Replay 도입

  • 에이전트의 경험 을 replay memory 에 저장.
  • 학습 시, D에서 무작위로 샘플링하여 미니배치 업데이트 수행 → 데이터 효율성 증가.

3. 딥 Q-러닝 구조 (Deep Q-Learning)

  • 입력: 고정 길이의 상태 표현 (최근 4개 프레임 스택)
  • 출력: 모든 행동에 대한 Q값
  • 핵심: 한 번의 forward pass로 모든 Q값 계산 → 연산 비용 감소

4. 학습 안정성을 높이는 이유들

  • 동일 샘플을 여러 번 사용 가능 → 데이터 효율 ↑
  • 무작위 샘플링으로 상관관계 제거, gradient 분산 감소
  • on-policy 학습 시 발생할 수 있는 정책-데이터 피드백 루프 문제 방지
  • 경험 재현은 off-policy 학습 → Q-learning에 적합

5. Replay Memory의 한계

  • 최근 N개만 저장 → 오래된 중요한 전이는 잊혀질 수 있음
  • 균일 샘플링: 중요한 전이와 그렇지 않은 전이를 구별하지 못함
  • → 해결책: 우선순위 샘플링(Prioritized Experience Replay) 고려 가능

 

경험 재현과 딥 CNN을 결합한 DQN은 원시 시각 입력을 바탕으로 강화학습을 안정적이고 효율적으로 수행

🎮  Experiments

🔹 5.1 학습 안정성

  • 총 보상 평균은 학습 추세를 보기엔 노이즈가 심함
  • 더 안정적인 지표로 예측된 최대 Q값의 평균 사용 → 학습이 매끄럽고 일관되게 향상
  • 전 실험에서 발산 없이 안정적인 학습 성공
  • 딥러닝 + 강화학습이 이론적 보장 없이도 안정적으로 작동할 수 있음을 시사

🔹 5.2 가치 함수 시각화 (Seaquest 예시)

  • 적 등장 → Q값 급등 (A)
  • 어뢰 발사 직전 → Q값 최고점 (B)
  • 적 사라짐 → Q값 감소 (C)

→ DQN이 시간에 따라 가치 함수의 변화를 학습할 수 있음

 

🔹 5.3 주요 성능 평가

  • 비교 대상:
    Sarsa / Contingency: 수작업 특징 + 시각적 사전 지식 사용
    HNeat: 객체 감지기 또는 색상 채널 활용 (진화 방식)
    Human / Random: 전문가와 무작위 정책
  • DQN은 원시 RGB만 입력으로 사용하고, 사전 지식 없이 모든 게임에서 압도적 성능

 

🎮 DQN이 인간보다 높은 성능을 낸 게임:

Breakout, Enduro, Pong

🧠 인간 수준에 근접한 게임:

Beam Rider

⚠️ 인간보다 낮은 성능의 게임:

Q*bert, Seaquest, Space Invaders

 장기 전략이 필요한 복잡한 환경

 

DQN은 사전 지식 없이도 안정적으로 학습되며, 여러 아타리 게임에서 기존 강화학습 방법과 인간 전문가를 능가하는 성능을 보임

 


🎮  Conclusion

  • 원시 픽셀만을 입력으로 사용하는 딥러닝 기반 강화학습 모델(DQN) 을 제안함.
  • 경험 재현 + 확률적 미니배치 업데이트를 결합한 온라인 Q-learning 변형 기법을 도입.
  • 아키텍처나 하이퍼파라미터 조정 없이, 7개 아타리 게임 중 6개에서 최고 성능(state-of-the-art) 달성.
입력을 전혀 가공하지 않고도, DQN은 딥러닝과 강화학습을 결합해 여러 아타리 게임을 성공적으로 학습하며 강력한 일반화 성능을 입증

✳️ 논문 리뷰

 

1. 🧾 논문 개요

이 논문은 딥러닝과 강화학습을 통합한 Deep Q-Network(DQN) 을 제안하며,

아타리 2600 게임 환경에서 원시 픽셀 입력만으로 제어 정책을 학습하는 모델을 성공적으로 구현한 최초의 사례 중 하나

복잡한 시각 입력으로부터 직접 행동을 예측하며, 기존의 강화학습 기법이 갖는 특징 엔지니어링 의존성 문제를 극복했다는 점에서 큰 의의


2. 🎯 주요 기여

1. DQN(Deep Q-Network) 제안

CNN 기반 신경망으로 Q함수를 근사하고, 원시 RGB 이미지로부터 직접 학습

 

2. Q-learning 안정화 기법 적용

경험 재현(Experience Replay): 데이터의 상관성 제거 및 샘플 다양성 확보

고정된 타깃 네트워크(target network) 사용은 이 논문 이후에 추가되지만, 여기선 타깃 Q값 계산 시 이전 네트워크 파라미터 사용으로 변형 구현

 

3. 프레임 스택과 보상 클리핑 기법

시계열 정보를 반영하기 위해 최근 4개 프레임을 스택

보상의 크기를 정규화(+1, 0, -1)하여 학습 안정성 향상

 

4. 게임 특화 없이 통일된 구조로 학습

모든 게임에서 같은 네트워크 아키텍처와 하이퍼파라미터 사용

사전 지식 없이 일반화된 학습 가능성을 실험적으로 입증


3. 🧪 실험 및 결과

  • 7개 아타리 게임(Beam Rider, Breakout, Enduro, Pong, Q*bert, Seaquest, Space Invaders)에 DQN 적용
  • 모든 게임에서 표준 강화학습 기법(Sarsa, Contingency 등)을 압도
  • Breakout, Pong, Enduro에서는 인간 전문가보다 높은 성능
  • Seaquest, Q*bert 등 장기 전략이 요구되는 게임에서는 아직 인간 수준에 도달하지 못함
  • 행동 가치 함수(Q)의 안정적 수렴과 총 보상의 상승 추세를 통해 학습의 안정성과 효율성 입증

 


4. ✅ 강점과 ❗한계

✅ 강점

  • 딥러닝과 강화학습의 결합 가능성을 최초로 실증
  • 입력 전처리 최소화 → 일반화 가능성 확대
  • 기존 강화학습의 주요 문제(데이터 상관성, 분포 이동)를 구조적으로 해결
  • 하나의 모델로 다양한 게임에 적용 → 멀티태스크 강화학습의 기초 마련

 

❗한계

  • 보상 클리핑으로 인해 보상 크기 차이를 학습하지 못함
  • 장기적 의사결정(long-term planning)이 필요한 게임에선 성능 저조
  • 현재 구조만으로는 메모리 기반 전략(memory-based policy) 학습이 어려움
  • 일부 구현 세부(타깃 네트워크 분리 등)는 이후 연구에서 보완됨

5. 📝 총평

이 논문은 강화학습과 딥러닝의 융합이라는 새로운 연구 패러다임을 열었고,

이후 등장하는 수많은 DQN 기반 연구들의 토대를 제공한 기념비적인 논문

 

비록 완전한 수준의 안정성과 일반화는 아니었지만, 단순한 설계로 놀라운 결과를 이끌어냈고,

후속 연구들(DDQN, Dueling DQN, A3C 등)의 출발점이 되었다는 점에서 학문적, 기술적 가치 모두가 높음