乐观的近端策略优化

ICMLJun, 2019

Optimistic Proximal Policy Optimization

Takahisa Imagawa, Takuya Hiraoka, Yoshimasa Tsuruoka

TL;DR本研究通过提出一种基于乐观策略优化的方法（Optimistic Proximal Policy Optimization，OPPO），针对奖励稀少的领域，考虑了总收益的不确定性并在此基础上对策略进行乐观评估，从而优化自主代理的学习效果，实现了在表格任务上优于现有方法的结果。

Abstract

reinforcement learning, a machine learning framework for training an autonomous agent based on rewards, has shown outstanding results in various domains. However, it is known that learning a good policy is diffic

reinforcement learning autonomous agent policy optimization uncertainty total return

发现论文，激发创造

策略优化中可证明高效的探索

本文提出了一种 Proximal Policy Optimization 算法的乐观变异版本（OPPO），它实现了在带有线性函数拟合、未知转移和对抗奖励的情况下，探索机制下的近似最优解，是第一种实现这一目标的算法。

Dec, 2019

近端策略优化算法

本研究提出了一种新的针对增强学习的策略梯度方法，称为近端策略优化 (PPO)，通过与环境的交互采样数据，并使用随机梯度上升优化 “替代” 目标函数，不同于标准的策略梯度方法，该方法可以实现多个小批量更新周期，实验结果表明 PPO 在模拟机器人运动和 Atari 视频游戏玩耍等基准任务上的表现优于其他在线策略梯度方法，同时在样本复杂度、实现简单性和时间效率等方面取得了有利的平衡。

Jul, 2017

线性马尔可夫决策过程中乐观近端策略优化的理论分析

本研究针对增强学习领域中的近端政策优化（PPO）算法，在线性马尔科夫决策过程中引入乐观变体，提出了一种新的多批次更新机制，使用价值和策略类的新覆盖数论算法进行优化和分析，成果在随机线性马尔可夫决策过程和完全信息对抗性线性马尔可夫决策过程中取得了最先进的成果。在对强化学习领域的理解和改进方面具有重要意义。

May, 2023

真正靠近策略优化

本文介绍了一种名为 Truly PPO 的增强 PPO 方法，针对 PPO 在优化行为方面存在的问题进行了改进，通过使用新的剪辑函数来支持回滚行为，使用基于可信区域的触发条件替换剪辑的触发条件，从而提供了保证的拟态策略性能单调改进，从而改善了 PPO 在样本效率和性能方面的表现。

Mar, 2019

跨域行为策略优化的转导式离策略优化

这篇论文介绍了一种名为 Transductive Off-policy PPO（ToPPO）的新型离策略 PPO 方法，通过引入离策略数据，提供了在 PPO 训练中结合离策略数据的理论依据和安全应用的指导，包括从离策略数据中得出潜在策略的政策改进下界的新型公式以及优化该下界的高效机制，并通过全面实验结果展示了 ToPPO 的良好性能。

Jun, 2024

基于信赖域引导的近端策略优化

对 Proximal policy optimization 的探索行为进行了深入分析，提出了一种名为 Trust Region-Guided PPO 的新的策略优化方法，通过自适应调整裁剪范围解决了初始条件差的情况下缺乏探索的问题，并证明其相较于原始的 PPO 算法有更好的性能表现。

Jan, 2019

使用课程学习和奖励工程的近端策略优化解决实际优化问题

我们通过课程学习原则和细致的奖励工程，使用近端策略优化（PPO）智能体对一个现实世界中的高吞吐量垃圾分类设施进行训练，以达到优化操作安全、优化处理量和最小化资源使用的竞争目标，并将其逐渐应用于更加复杂的环境动力学中，同时完善奖励机制，从而提高推理时间安全性并提高垃圾分类工厂的效率。

Apr, 2024

PPO 在合作多智能体游戏中令人惊讶的有效性

本研究通过四个流行的多智能体测试环境，证明了基于 PPO 的多智能体算法表现出令人惊讶的性能，并降低了样本复杂度，显示出它可以成为协同多智能体强化学习中的强基线方法。

Mar, 2021

通过轻量级不确定性估计的对抗策略优化克服奖励过度优化

引入对抗性策略优化 (AdvPO) 作为一种解决强化学习从人类反馈中的奖励过度优化问题的新方法，通过对奖励模型的不确定性进行量化，并通过分布鲁棒优化处理奖励模型的置信区间，从而增强性能。

Mar, 2024

重新审视近端策略优化中的设计选择

本文介绍了 Proximal Policy Optimization (PPO) 算法，探讨了算法的设计和实现，指出了标准实现方式中存在的三个失败模式，提出了替代方案。同时，本文认为我们应该注意算法的设计与模拟环境之间的关系。

Sep, 2020