自适应探索的近端策略优化

May, 2024

Proximal Policy Optimization with Adaptive Exploration

Andrei Lixandru

TL;DR探讨了在强化学习环境下的探索与利用权衡，提出了自适应探索的近端策略优化算法（axPPO），该方法通过根据智能体的最近表现动态调整探索幅度，提高了学习效率，特别是在学习过程开始阶段需要大量探索性行为时。

Abstract

proximal policy optimization with adaptive exploration (axPPO) is introduced as a novel learning algorithm. This paper investigates the explorati

proximal policy optimization adaptive exploration reinforcement learning exploration-exploitation tradeoff learning efficiency

发现论文，激发创造

近端策略优化算法

本研究提出了一种新的针对增强学习的策略梯度方法，称为近端策略优化 (PPO)，通过与环境的交互采样数据，并使用随机梯度上升优化 “替代” 目标函数，不同于标准的策略梯度方法，该方法可以实现多个小批量更新周期，实验结果表明 PPO 在模拟机器人运动和 Atari 视频游戏玩耍等基准任务上的表现优于其他在线策略梯度方法，同时在样本复杂度、实现简单性和时间效率等方面取得了有利的平衡。

Jul, 2017

乐观的近端策略优化

本研究通过提出一种基于乐观策略优化的方法（Optimistic Proximal Policy Optimization，OPPO），针对奖励稀少的领域，考虑了总收益的不确定性并在此基础上对策略进行乐观评估，从而优化自主代理的学习效果，实现了在表格任务上优于现有方法的结果。

Jun, 2019

PPO-CMA：具有协方差矩阵适应性的近端策略优化

提出了 Proximal Policy Optimization (PPO) 算法的改进版本 PPO-CMA，通过 adaptively 扩大 exploration variance 来加速算法优化速度，相对于传统 PPO 算法在 Roboschool continuous control benchmarks 任务中表现显著提升，且不需要耗费大量篇幅调节参数。

Oct, 2018

基于信赖域引导的近端策略优化

对 Proximal policy optimization 的探索行为进行了深入分析，提出了一种名为 Trust Region-Guided PPO 的新的策略优化方法，通过自适应调整裁剪范围解决了初始条件差的情况下缺乏探索的问题，并证明其相较于原始的 PPO 算法有更好的性能表现。

Jan, 2019

策略优化中可证明高效的探索

本文提出了一种 Proximal Policy Optimization 算法的乐观变异版本（OPPO），它实现了在带有线性函数拟合、未知转移和对抗奖励的情况下，探索机制下的近似最优解，是第一种实现这一目标的算法。

Dec, 2019

PPO-UE: 接近策略优化通过不确定性感知探索

该研究提出了一种名为 PPO-UE 的策略，它基于比率不确定性水平，优化探索过程，从而在 Roboschool 连续控制任务中显著优于基线 PPO。

Dec, 2022

重新审视近端策略优化中的设计选择

本文介绍了 Proximal Policy Optimization (PPO) 算法，探讨了算法的设计和实现，指出了标准实现方式中存在的三个失败模式，提出了替代方案。同时，本文认为我们应该注意算法的设计与模拟环境之间的关系。

Sep, 2020

基于模型探索的策略优化

介绍了一种名为 Policy Optimization with Model-based Explorations (POME) 的新的强化学习策略优化方法，将模型自由和模型依赖估计方法的差距视作探索价值的度量，并将 Monte-Carlo 抽样方法与转移模型相结合，以最大化预测误差的探索价值，从而解决了模型自由与模型依赖学习之间权衡的问题。

Nov, 2018

PPO 在合作多智能体游戏中令人惊讶的有效性

本研究通过四个流行的多智能体测试环境，证明了基于 PPO 的多智能体算法表现出令人惊讶的性能，并降低了样本复杂度，显示出它可以成为协同多智能体强化学习中的强基线方法。

Mar, 2021

序列生成的近端策略优化及其动态版本

本论文提出了使用动态的 PPO 算法来替换 policy gradient 来更有效地完成序列生成任务（包括虚假聊天机器人），并展示了 PPO 和 PPO-dynamic 相对于 policy gradient 算法在稳定性和性能上的优越性。

Aug, 2018