PPO 算法中可能不需要使用比率剪裁

Jan, 2022

PPO 算法中可能不需要使用比率剪裁

You May Not Need Ratio Clipping in PPO

Mingfei Sun, Vitaly Kurin, Guoqing Liu, Sam Devlin, Tao Qin...

TL;DR本文探讨了比例剪切 PPO 方法的缺陷，提出了一种名为 ESPO 的早停策略优化算法，通过在多个连续控制任务上的比较，发现 ESPO 显著优于 PPO，而且能够轻松扩展到使用多个工作器进行分布式训练。

Abstract

proximal policy optimization (PPO) methods learn a policy by iteratively performing multiple mini-batch optimization epochs of a surrogate objective with one set of sampled data. →

proximal policy optimization surrogate objective ratio clipping early stopping policy optimization distributed training

发现论文，激发创造

简单政策优化

本文介绍了 SPO（简化策略优化）算法，该算法通过引入一种新的 KL 散度夹紧方法，能够在几乎所有环境中有效地强制执行信任区域约束，同时仍然保持一阶算法的简单性。在 Atari 2600 环境中进行的比较实验表明，SPO 有时比 PPO 算法更强大。

Jan, 2024

重新审视近端策略优化中的设计选择

本文介绍了 Proximal Policy Optimization (PPO) 算法，探讨了算法的设计和实现，指出了标准实现方式中存在的三个失败模式，提出了替代方案。同时，本文认为我们应该注意算法的设计与模拟环境之间的关系。

Sep, 2020

PPO-Clip 实现全局最优性：对裁剪更深入的理解

用 PPO-Clip 算法进行了理论分析，得出了 PPO-Clip 在神经函数逼近设置中具有 O (1/√T) 的收敛速度，同时发现了剪切范围只影响收敛速率的预常数。

Dec, 2023

基于截断目标函数的消极策略优化的政策梯度

通过简单的目标调整，我们发现在连续行动空间中，将 Proximal Policy Optimization (PPO) 的重要性采样目标替换为截断等价的基础策略梯度可以持续改善其性能，并且这种悲观的优化促进了增强性探索，从而在单任务、约束和多任务学习中产生了改进的学习效果，而不增加显著的计算成本或复杂性。

Nov, 2023

自适应上界置信度增强的近端策略优化

通过引入自适应 PPO-CLIP（Adaptive-PPO）方法，动态探索和利用带卡尔曼滤波的剪辑边界，在线训练过程中改善 PPO 的性能，并通过大量实验初步证明我们的自适应 PPO 对比 PPO-CLIP 表现出的样本效率和性能。

Dec, 2023

真正靠近策略优化

本文介绍了一种名为 Truly PPO 的增强 PPO 方法，针对 PPO 在优化行为方面存在的问题进行了改进，通过使用新的剪辑函数来支持回滚行为，使用基于可信区域的触发条件替换剪辑的触发条件，从而提供了保证的拟态策略性能单调改进，从而改善了 PPO 在样本效率和性能方面的表现。

Mar, 2019

关于近端策略优化中的重尾梯度

本文研究了 PPO 类算法的梯度的重尾性质，并提出了一个高维鲁棒估计器 GMOM 来替代几个剪切技巧，解决梯度重尾的问题，实验表明在 MuJoCo 测试任务上表现出与 PPO 相当的性能。

Feb, 2021

近端策略优化算法

本研究提出了一种新的针对增强学习的策略梯度方法，称为近端策略优化 (PPO)，通过与环境的交互采样数据，并使用随机梯度上升优化 “替代” 目标函数，不同于标准的策略梯度方法，该方法可以实现多个小批量更新周期，实验结果表明 PPO 在模拟机器人运动和 Atari 视频游戏玩耍等基准任务上的表现优于其他在线策略梯度方法，同时在样本复杂度、实现简单性和时间效率等方面取得了有利的平衡。

Jul, 2017

近端策略优化的联合动作损失

本文提出了一种计算每个子动作损失的多动作混合损失，并在 Gym-μRTS 和 MuJoCo 环境中进行了实验。结果表明相比于 OpenAI 的 PPO 基准结果，该方法可以将性能提高 50％以上，并且在 Gym-μRTS 中，子动作损失表现出优于标准 PPO 方法的效果，尤其是在截断范围较大时。

Jan, 2023

基于信赖域引导的近端策略优化

对 Proximal policy optimization 的探索行为进行了深入分析，提出了一种名为 Trust Region-Guided PPO 的新的策略优化方法，通过自适应调整裁剪范围解决了初始条件差的情况下缺乏探索的问题，并证明其相较于原始的 PPO 算法有更好的性能表现。

Jan, 2019