本研究提出了一种新的针对增强学习的策略梯度方法,称为近端策略优化 (PPO),通过与环境的交互采样数据,并使用随机梯度上升优化 “替代” 目标函数,不同于标准的策略梯度方法,该方法可以实现多个小批量更新周期,实验结果表明 PPO 在模拟机器人运动和 Atari 视频游戏玩耍等基准任务上的表现优于其他在线策略梯度方法,同时在样本复杂度、实现简单性和时间效率等方面取得了有利的平衡。
Jul, 2017
本研究通过提出一种基于乐观策略优化的方法(Optimistic Proximal Policy Optimization,OPPO),针对奖励稀少的领域,考虑了总收益的不确定性并在此基础上对策略进行乐观评估,从而优化自主代理的学习效果,实现了在表格任务上优于现有方法的结果。
Jun, 2019
提出了 Proximal Policy Optimization (PPO) 算法的改进版本 PPO-CMA,通过 adaptively 扩大 exploration variance 来加速算法优化速度,相对于传统 PPO 算法在 Roboschool continuous control benchmarks 任务中表现显著提升,且不需要耗费大量篇幅调节参数。
Oct, 2018
对 Proximal policy optimization 的探索行为进行了深入分析,提出了一种名为 Trust Region-Guided PPO 的新的策略优化方法,通过自适应调整裁剪范围解决了初始条件差的情况下缺乏探索的问题,并证明其相较于原始的 PPO 算法有更好的性能表现。
Jan, 2019
本文提出了一种 Proximal Policy Optimization 算法的乐观变异版本(OPPO),它实现了在带有线性函数拟合、未知转移和对抗奖励的情况下,探索机制下的近似最优解,是第一种实现这一目标的算法。
Dec, 2019
该研究提出了一种名为 PPO-UE 的策略,它基于比率不确定性水平,优化探索过程,从而在 Roboschool 连续控制任务中显著优于基线 PPO。
Dec, 2022
本文介绍了 Proximal Policy Optimization (PPO) 算法,探讨了算法的设计和实现,指出了标准实现方式中存在的三个失败模式,提出了替代方案。同时,本文认为我们应该注意算法的设计与模拟环境之间的关系。
Sep, 2020
介绍了一种名为 Policy Optimization with Model-based Explorations (POME) 的新的强化学习策略优化方法,将模型自由和模型依赖估计方法的差距视作探索价值的度量,并将 Monte-Carlo 抽样方法与转移模型相结合,以最大化预测误差的探索价值,从而解决了模型自由与模型依赖学习之间权衡的问题。
Nov, 2018
本研究通过四个流行的多智能体测试环境,证明了基于 PPO 的多智能体算法表现出令人惊讶的性能,并降低了样本复杂度,显示出它可以成为协同多智能体强化学习中的强基线方法。
Mar, 2021
本论文提出了使用动态的 PPO 算法来替换 policy gradient 来更有效地完成序列生成任务(包括虚假聊天机器人),并展示了 PPO 和 PPO-dynamic 相对于 policy gradient 算法在稳定性和性能上的优越性。
Aug, 2018