重新审视近端策略优化中的设计选择

Sep, 2020

Revisiting Design Choices in Proximal Policy Optimization

Chloe Ching-Yun Hsu, Celestine Mendler-Dünner, Moritz Hardt

TL;DR本文介绍了Proximal Policy Optimization (PPO)算法，探讨了算法的设计和实现，指出了标准实现方式中存在的三个失败模式，提出了替代方案。同时，本文认为我们应该注意算法的设计与模拟环境之间的关系。

Abstract

proximal policy optimization (PPO) is a popular deep policy gradient algorithm. In standard implementations, PPO regularizes policy updates with