Club|Project/Euron | AI,데이터분석 학회

✳️ [PPO: Proximal Policy Optimization Algorithms] 인트로 리뷰

정람지 2025. 5. 5. 12:04

https://arxiv.org/pdf/1707.06347

 

PPO 예전에 살짝 공부했었던

강화학습

리워드모델 거리


Abstract

우리는 강화학습을 위한 새로운 계열의 정책 경사(policy gradient) 알고리즘을 제안한다. 이 알고리즘은 환경과의 상호작용을 통해 데이터를 샘플링하고, 확률적 경사 상승법(stochastic gradient ascent)을 이용해 “대리(surrogate)” 목적 함수를 최적화하는 과정을 번갈아 수행한다. 기존의 표준 정책 경사 알고리즘은 각 데이터 샘플마다 한 번의 경사 업데이트를 수행하는 반면, 본 논문에서는 미니배치(minibatch) 기반의 다중 에폭(epoch) 업데이트를 가능하게 하는 새로운 목적 함수를 제안한다.

 

이 새로운 방법을 Proximal Policy Optimization (PPO) 라고 부르며, Trust Region Policy Optimization (TRPO)의 이점 중 일부를 유지하면서도 구현이 더 간단하고, 더 일반적이며, 샘플 효율성도 더 우수함(실험적으로)을 보여준다. 본 논문의 실험은 시뮬레이션된 로봇의 이동 제어 및 Atari 게임 플레이 등 다양한 벤치마크 작업을 통해 PPO를 평가하였고, 그 결과 PPO는 다른 온라인 정책 경사법에 비해 더 우수한 성능을 보였으며, 샘플 효율성, 단순성, 계산 시간 간의 균형을 잘 맞춘 방법임을 확인하였다.

 

 

Introduction

최근 몇 년 동안, 신경망 함수 근사기(neural network function approximators)를 이용한 강화학습을 위해 여러 가지 접근 방식이 제안되었다. 주요 경쟁자들로는 딥 Q-러닝(deep Q-learning), “바닐라” 정책 경사법(vanilla policy gradient methods), 그리고 trust region / natural policy gradient methods가 있다. 그러나 여전히 대규모 모델과 병렬 구현에 확장 가능하면서(data efficient), 다양한 문제에 대해 튜닝 없이도 견고한(robust) 성능을 보이는 방법에 대한 개선의 여지가 존재한다.

 

함수 근사를 사용하는 Q-러닝은 많은 간단한 문제들에서도 실패하며, 그 메커니즘이 완전히 이해되지 않았다. 바닐라 정책 경사법 데이터 효율성과 견고성에서 부족함을 보인다. 반면, Trust Region Policy Optimization (TRPO)는 상대적으로 복잡하며, 드롭아웃(dropout)이나 파라미터 공유(예: 정책과 가치 함수 간 공유, 혹은 보조 과제와의 공유)와 같은 noise가 포함된 아키텍처와는 호환되지 않는다.

 

이 논문은 TRPO의 데이터 효율성과 신뢰할 수 있는 성능을 유지하면서, 일차 최적화(first-order optimization)만을 사용하는 알고리즘을 제안하여 이러한 문제를 개선하고자 한다. 우리는 클리핑된 확률 비율(clipped probability ratios)을 사용한 새로운 목적 함수를 제안한다. 이 목적 함수는 정책의 성능에 대한 비관적(낮게 평가하는) 추정(lower bound)을 제공한다. 정책을 최적화하기 위해, 우리는 정책으로부터 데이터를 샘플링하고, 그 샘플 데이터에 대해 여러 에폭(epoch)에 걸쳐 최적화를 수행하는 절차를 반복한다.

 

우리의 실험에서는 여러 종류의 대리 목적 함수(surrogate objective)를 비교하였으며, 클리핑된 확률 비율(clipped probability ratio)을 사용하는 버전이 가장 뛰어난 성능을 보였다. 또한 PPO를 기존의 여러 알고리즘과 비교하였다. 연속 제어(continuous control) 작업에서는 비교한 알고리즘들보다 더 좋은 성능을 보였고, Atari 게임에서는 A2C보다 샘플 효율성 측면에서 훨씬 우수, ACER와 비슷한 성능을 나타냈으며, 구현은 훨씬 단순했다.


 

 논문 목표

 

  • 강화학습에서 간단하고 안정적인 정책 최적화 방법 개발.
  • 기존 TRPO의 안정성을 유지하면서 구현을 단순화하고, 샘플 효율성을 높임.

 

 제안 방법 (PPO)

 

  • Proximal Policy Optimization (PPO):
    • 클리핑된 확률 비율(clipped probability ratio) 사용 → 정책 업데이트가 지나치게 커지는 것을 방지.
    • 데이터를 샘플링하고 여러 에폭(epoch) 동안 미니배치 최적화 반복.

 

 문제점 개선

 

  • 기존 방법들의 한계:
    • Q-러닝: 일부 문제에서 실패, 메커니즘 이해 부족.
    • 바닐라 정책 경사법: 데이터 효율성, 안정성 부족.
    • TRPO: 복잡하고 dropout, parameter sharing 등과 호환 어려움.
  • PPO는 단순한 일차 최적화만으로 TRPO 수준의 성능과 안정성 확보.

 

 주요 성과

 

  • 연속 제어 작업에서 기존 방법들보다 더 높은 성능.
  • Atari 게임에서 A2C보다 샘플 효율성 우수, ACER와 비슷한 성능.
  • 구현 간단, 다양한 아키텍처에 적용 가능.