BriefGPT.xyz
Sep, 2020
重新审视近端策略优化中的设计选择
Revisiting Design Choices in Proximal Policy Optimization
HTML
PDF
Chloe Ching-Yun Hsu, Celestine Mendler-Dünner, Moritz Hardt
TL;DR
本文介绍了Proximal Policy Optimization (PPO)算法,探讨了算法的设计和实现,指出了标准实现方式中存在的三个失败模式,提出了替代方案。同时,本文认为我们应该注意算法的设计与模拟环境之间的关系。
Abstract
proximal policy optimization
(PPO) is a popular
deep policy gradient
algorithm. In standard implementations, PPO regularizes policy updates with
→