深度策略梯度的实现问题: PPO 和 TRPO 的案例研究

ICLRMay, 2020

深度策略梯度的实现问题: PPO 和 TRPO 的案例研究

Implementation Matters in Deep Policy Gradients: A Case Study on PPO and TRPO

Logan Engstrom, Andrew Ilyas, Shibani Santurkar, Dimitris Tsipras, Firdaus Janoos...

TL;DR通过对两种流行算法（PPO 和 TRPO）的案例研究，我们研究了深度策略梯度算法中算法进展的根源，并调查了 “代码级优化” 的后果：这些优化仅出现在其他实现中或被描述为核心算法的辅助详细信息，它们似乎具有次要影响，但实际上极大地影响了代理行为。我们的结果表明，它们（a）负责 PPO 在累积奖励方面比 TRPO 获得的大部分收益，并且（b）从根本上改变了 RL 方法的功能。

Abstract

We study the roots of algorithmic progress in deep policy gradient algorithms through a case study on two popular algorithms: proximal policy opt

algorithmic progress deep policy gradient algorithms proximal policy optimization trust region policy optimization code-level optimizations

发现论文，激发创造

近端策略优化算法

本研究提出了一种新的针对增强学习的策略梯度方法，称为近端策略优化 (PPO)，通过与环境的交互采样数据，并使用随机梯度上升优化 “替代” 目标函数，不同于标准的策略梯度方法，该方法可以实现多个小批量更新周期，实验结果表明 PPO 在模拟机器人运动和 Atari 视频游戏玩耍等基准任务上的表现优于其他在线策略梯度方法，同时在样本复杂度、实现简单性和时间效率等方面取得了有利的平衡。

Jul, 2017

基于信赖域引导的近端策略优化

对 Proximal policy optimization 的探索行为进行了深入分析，提出了一种名为 Trust Region-Guided PPO 的新的策略优化方法，通过自适应调整裁剪范围解决了初始条件差的情况下缺乏探索的问题，并证明其相较于原始的 PPO 算法有更好的性能表现。

Jan, 2019

通过无关行为的发散正则化来实现稳定的政策优化

在这篇论文中，我们提出了一种新的算法，它通过一种接近性项稳定了策略改进，并限制由连续策略引发的折扣状态行动访问分布彼此接近，并通过离线训练和对抗性学习的方式学习这种接近性项。我们在基准高维控制任务中实证表明，我们提出的方法可以对稳定性产生有益影响，并提高最终性能.

Mar, 2020

真正靠近策略优化

本文介绍了一种名为 Truly PPO 的增强 PPO 方法，针对 PPO 在优化行为方面存在的问题进行了改进，通过使用新的剪辑函数来支持回滚行为，使用基于可信区域的触发条件替换剪辑的触发条件，从而提供了保证的拟态策略性能单调改进，从而改善了 PPO 在样本效率和性能方面的表现。

Mar, 2019

神经近端 / 信任区域策略优化实现全局最优策略

本文研究使用神经网络来完成深度强化学习中的策略优化，其中包括策略梯度和动作价值函数。在此基础上，通过分析无限维镜像下降的全局收敛性，证明了 PPO 和 TRPO 在使用过度参数化神经网络时收敛于全局最优策略，且收敛速度为次线性。

Jun, 2019

信任域策略优化

本文提出了一种名为 TRPO 的实用算法，通过优化政策来达到保证单调改善的目的，并通过一系列实验展示了其在学习模拟机器人的 Swimming、Hopping 以及 Walking，并使用屏幕图像玩 Atari 游戏等众多方面的优越表现。

Feb, 2015

反思式策略优化

该论文介绍了一种新的基于策略的扩展方法 —— 反思性策略优化（RPO），它将过去和未来的状态 - 动作信息结合起来以进行策略优化，从而使智能体能够自我审视并在当前状态下修改其动作。理论分析证实了政策绩效的递增和解集空间的收缩，从而加快了收敛过程。经验证据表明，在两个强化学习基准测试中，RPO 在样本效率方面表现出了显著的优势。

Jun, 2024

重新审视近端策略优化中的设计选择

本文介绍了 Proximal Policy Optimization (PPO) 算法，探讨了算法的设计和实现，指出了标准实现方式中存在的三个失败模式，提出了替代方案。同时，本文认为我们应该注意算法的设计与模拟环境之间的关系。

Sep, 2020

简单政策优化

本文介绍了 SPO（简化策略优化）算法，该算法通过引入一种新的 KL 散度夹紧方法，能够在几乎所有环境中有效地强制执行信任区域约束，同时仍然保持一阶算法的简单性。在 Atari 2600 环境中进行的比较实验表明，SPO 有时比 PPO 算法更强大。

Jan, 2024

基于截断目标函数的消极策略优化的政策梯度

通过简单的目标调整，我们发现在连续行动空间中，将 Proximal Policy Optimization (PPO) 的重要性采样目标替换为截断等价的基础策略梯度可以持续改善其性能，并且这种悲观的优化促进了增强性探索，从而在单任务、约束和多任务学习中产生了改进的学习效果，而不增加显著的计算成本或复杂性。

Nov, 2023