近端策略优化的联合动作损失

Jan, 2023

Joint action loss for proximal policy optimization

Xiulei Song, Yizhao Jin, Greg Slabaugh, Simon Lucas

TL;DR本文提出了一种计算每个子动作损失的多动作混合损失，并在 Gym-μRTS 和 MuJoCo 环境中进行了实验。结果表明相比于 OpenAI 的 PPO 基准结果，该方法可以将性能提高 50％以上，并且在 Gym-μRTS 中，子动作损失表现出优于标准 PPO 方法的效果，尤其是在截断范围较大时。

Abstract

ppo (Proximal Policy Optimization) is a state-of-the-art policy gradient algorithm that has been successfully applied to complex computer games such as Dota 2 and Honor of Kings. In these environments, an agent m

ppo policy gradient compound actions clipping sub-action loss

发现论文，激发创造

重新审视近端策略优化中的设计选择

本文介绍了 Proximal Policy Optimization (PPO) 算法，探讨了算法的设计和实现，指出了标准实现方式中存在的三个失败模式，提出了替代方案。同时，本文认为我们应该注意算法的设计与模拟环境之间的关系。

Sep, 2020

PPO 在合作多智能体游戏中令人惊讶的有效性

本研究通过四个流行的多智能体测试环境，证明了基于 PPO 的多智能体算法表现出令人惊讶的性能，并降低了样本复杂度，显示出它可以成为协同多智能体强化学习中的强基线方法。

Mar, 2021

近端策略优化算法

本研究提出了一种新的针对增强学习的策略梯度方法，称为近端策略优化 (PPO)，通过与环境的交互采样数据，并使用随机梯度上升优化 “替代” 目标函数，不同于标准的策略梯度方法，该方法可以实现多个小批量更新周期，实验结果表明 PPO 在模拟机器人运动和 Atari 视频游戏玩耍等基准任务上的表现优于其他在线策略梯度方法，同时在样本复杂度、实现简单性和时间效率等方面取得了有利的平衡。

Jul, 2017

协作式近端策略优化

本文提出了一种名为 CoPPO 的算法，用于多智能体环境下的多项策略优化，并证明了该算法在优化理论基础上的联合目标后能够实现动态的学分分配，解决了多智能体系统中同时更新智能体策略时高方差的问题，并通过实验证明其在合作矩阵博弈和 StarCraft II 微观管理任务等典型多智能体环境下优于一些强基线，并与最新的多智能体 PPO 方法（即 MAPPO）相竞争。

Nov, 2021

真正靠近策略优化

本文介绍了一种名为 Truly PPO 的增强 PPO 方法，针对 PPO 在优化行为方面存在的问题进行了改进，通过使用新的剪辑函数来支持回滚行为，使用基于可信区域的触发条件替换剪辑的触发条件，从而提供了保证的拟态策略性能单调改进，从而改善了 PPO 在样本效率和性能方面的表现。

Mar, 2019

基于截断目标函数的消极策略优化的政策梯度

通过简单的目标调整，我们发现在连续行动空间中，将 Proximal Policy Optimization (PPO) 的重要性采样目标替换为截断等价的基础策略梯度可以持续改善其性能，并且这种悲观的优化促进了增强性探索，从而在单任务、约束和多任务学习中产生了改进的学习效果，而不增加显著的计算成本或复杂性。

Nov, 2023

线性马尔可夫决策过程中乐观近端策略优化的理论分析

本研究针对增强学习领域中的近端政策优化（PPO）算法，在线性马尔科夫决策过程中引入乐观变体，提出了一种新的多批次更新机制，使用价值和策略类的新覆盖数论算法进行优化和分析，成果在随机线性马尔可夫决策过程和完全信息对抗性线性马尔可夫决策过程中取得了最先进的成果。在对强化学习领域的理解和改进方面具有重要意义。

May, 2023

序列生成的近端策略优化及其动态版本

本论文提出了使用动态的 PPO 算法来替换 policy gradient 来更有效地完成序列生成任务（包括虚假聊天机器人），并展示了 PPO 和 PPO-dynamic 相对于 policy gradient 算法在稳定性和性能上的优越性。

Aug, 2018

关于近端策略优化中的重尾梯度

本文研究了 PPO 类算法的梯度的重尾性质，并提出了一个高维鲁棒估计器 GMOM 来替代几个剪切技巧，解决梯度重尾的问题，实验表明在 MuJoCo 测试任务上表现出与 PPO 相当的性能。

Feb, 2021

PPO-CMA：具有协方差矩阵适应性的近端策略优化

提出了 Proximal Policy Optimization (PPO) 算法的改进版本 PPO-CMA，通过 adaptively 扩大 exploration variance 来加速算法优化速度，相对于传统 PPO 算法在 Roboschool continuous control benchmarks 任务中表现显著提升，且不需要耗费大量篇幅调节参数。

Oct, 2018