PPO-CMA：具有协方差矩阵适应性的近端策略优化

Oct, 2018

PPO-CMA：具有协方差矩阵适应性的近端策略优化

PPO-CMA: Proximal Policy Optimization with Covariance Matrix Adaptation

Perttu Hämäläinen, Amin Babadi, Xiaoxiao Ma, Jaakko Lehtinen

TL;DR提出了 Proximal Policy Optimization (PPO) 算法的改进版本 PPO-CMA，通过 adaptively 扩大 exploration variance 来加速算法优化速度，相对于传统 PPO 算法在 Roboschool continuous control benchmarks 任务中表现显著提升，且不需要耗费大量篇幅调节参数。

Abstract

proximal policy optimization (PPO) is a highly popular model-free reinforcement learning (RL) approach. However, we observe that in a continuous action space, PPO can prematurely shrink the →

proximal policy optimization reinforcement learning cma-es exploration variance continuous control

发现论文，激发创造

重新审视近端策略优化中的设计选择

本文介绍了 Proximal Policy Optimization (PPO) 算法，探讨了算法的设计和实现，指出了标准实现方式中存在的三个失败模式，提出了替代方案。同时，本文认为我们应该注意算法的设计与模拟环境之间的关系。

Sep, 2020

协作式近端策略优化

本文提出了一种名为 CoPPO 的算法，用于多智能体环境下的多项策略优化，并证明了该算法在优化理论基础上的联合目标后能够实现动态的学分分配，解决了多智能体系统中同时更新智能体策略时高方差的问题，并通过实验证明其在合作矩阵博弈和 StarCraft II 微观管理任务等典型多智能体环境下优于一些强基线，并与最新的多智能体 PPO 方法（即 MAPPO）相竞争。

Nov, 2021

ClothPPO：一个增强机器人布料操纵的近端策略优化框架，使用与观测对齐的动作空间

本文介绍了基于视觉的机器人布料展开的研究，引入了一个基于策略梯度算法和演员 - 评论家架构的框架 ClothPPO，通过优化和更新策略，提高了软体操作任务下布料展开的表现。实验结果表明，我们的方法可以进一步改善其他最先进方法的展开性能。

May, 2024

线性马尔可夫决策过程中乐观近端策略优化的理论分析

本研究针对增强学习领域中的近端政策优化（PPO）算法，在线性马尔科夫决策过程中引入乐观变体，提出了一种新的多批次更新机制，使用价值和策略类的新覆盖数论算法进行优化和分析，成果在随机线性马尔可夫决策过程和完全信息对抗性线性马尔可夫决策过程中取得了最先进的成果。在对强化学习领域的理解和改进方面具有重要意义。

May, 2023

PPO 在合作多智能体游戏中令人惊讶的有效性

本研究通过四个流行的多智能体测试环境，证明了基于 PPO 的多智能体算法表现出令人惊讶的性能，并降低了样本复杂度，显示出它可以成为协同多智能体强化学习中的强基线方法。

Mar, 2021

自适应探索的近端策略优化

探讨了在强化学习环境下的探索与利用权衡，提出了自适应探索的近端策略优化算法（axPPO），该方法通过根据智能体的最近表现动态调整探索幅度，提高了学习效率，特别是在学习过程开始阶段需要大量探索性行为时。

May, 2024

真正靠近策略优化

本文介绍了一种名为 Truly PPO 的增强 PPO 方法，针对 PPO 在优化行为方面存在的问题进行了改进，通过使用新的剪辑函数来支持回滚行为，使用基于可信区域的触发条件替换剪辑的触发条件，从而提供了保证的拟态策略性能单调改进，从而改善了 PPO 在样本效率和性能方面的表现。

Mar, 2019

近端策略优化算法

本研究提出了一种新的针对增强学习的策略梯度方法，称为近端策略优化 (PPO)，通过与环境的交互采样数据，并使用随机梯度上升优化 “替代” 目标函数，不同于标准的策略梯度方法，该方法可以实现多个小批量更新周期，实验结果表明 PPO 在模拟机器人运动和 Atari 视频游戏玩耍等基准任务上的表现优于其他在线策略梯度方法，同时在样本复杂度、实现简单性和时间效率等方面取得了有利的平衡。

Jul, 2017

近端策略优化的联合动作损失

本文提出了一种计算每个子动作损失的多动作混合损失，并在 Gym-μRTS 和 MuJoCo 环境中进行了实验。结果表明相比于 OpenAI 的 PPO 基准结果，该方法可以将性能提高 50％以上，并且在 Gym-μRTS 中，子动作损失表现出优于标准 PPO 方法的效果，尤其是在截断范围较大时。

Jan, 2023

使用课程学习和奖励工程的近端策略优化解决实际优化问题

我们通过课程学习原则和细致的奖励工程，使用近端策略优化（PPO）智能体对一个现实世界中的高吞吐量垃圾分类设施进行训练，以达到优化操作安全、优化处理量和最小化资源使用的竞争目标，并将其逐渐应用于更加复杂的环境动力学中，同时完善奖励机制，从而提高推理时间安全性并提高垃圾分类工厂的效率。

Apr, 2024