简单政策优化
通过引入自适应 PPO-CLIP(Adaptive-PPO)方法,动态探索和利用带卡尔曼滤波的剪辑边界,在线训练过程中改善 PPO 的性能,并通过大量实验初步证明我们的自适应 PPO 对比 PPO-CLIP 表现出的样本效率和性能。
Dec, 2023
本文介绍了一种名为 Truly PPO 的增强 PPO 方法,针对 PPO 在优化行为方面存在的问题进行了改进,通过使用新的剪辑函数来支持回滚行为,使用基于可信区域的触发条件替换剪辑的触发条件,从而提供了保证的拟态策略性能单调改进,从而改善了 PPO 在样本效率和性能方面的表现。
Mar, 2019
本研究提出了一种新的针对增强学习的策略梯度方法,称为近端策略优化 (PPO),通过与环境的交互采样数据,并使用随机梯度上升优化 “替代” 目标函数,不同于标准的策略梯度方法,该方法可以实现多个小批量更新周期,实验结果表明 PPO 在模拟机器人运动和 Atari 视频游戏玩耍等基准任务上的表现优于其他在线策略梯度方法,同时在样本复杂度、实现简单性和时间效率等方面取得了有利的平衡。
Jul, 2017
对 Proximal policy optimization 的探索行为进行了深入分析,提出了一种名为 Trust Region-Guided PPO 的新的策略优化方法,通过自适应调整裁剪范围解决了初始条件差的情况下缺乏探索的问题,并证明其相较于原始的 PPO 算法有更好的性能表现。
Jan, 2019
在这篇论文中,我们提出了一种新的算法,它通过一种接近性项稳定了策略改进,并限制由连续策略引发的折扣状态行动访问分布彼此接近,并通过离线训练和对抗性学习的方式学习这种接近性项。我们在基准高维控制任务中实证表明,我们提出的方法可以对稳定性产生有益影响,并提高最终性能.
Mar, 2020
本文介绍了 Proximal Policy Optimization (PPO) 算法,探讨了算法的设计和实现,指出了标准实现方式中存在的三个失败模式,提出了替代方案。同时,本文认为我们应该注意算法的设计与模拟环境之间的关系。
Sep, 2020
本文探讨了比例剪切 PPO 方法的缺陷,提出了一种名为 ESPO 的早停策略优化算法,通过在多个连续控制任务上的比较,发现 ESPO 显著优于 PPO,而且能够轻松扩展到使用多个工作器进行分布式训练。
Jan, 2022
通过简单的目标调整,我们发现在连续行动空间中,将 Proximal Policy Optimization (PPO) 的重要性采样目标替换为截断等价的基础策略梯度可以持续改善其性能,并且这种悲观的优化促进了增强性探索,从而在单任务、约束和多任务学习中产生了改进的学习效果,而不增加显著的计算成本或复杂性。
Nov, 2023
本文提出了一种名为 TRPO 的实用算法,通过优化政策来达到保证单调改善的目的,并通过一系列实验展示了其在学习模拟机器人的 Swimming、Hopping 以及 Walking,并使用屏幕图像玩 Atari 游戏等众多方面的优越表现。
Feb, 2015
该论文介绍了一种新的基于策略的扩展方法 —— 反思性策略优化(RPO),它将过去和未来的状态 - 动作信息结合起来以进行策略优化,从而使智能体能够自我审视并在当前状态下修改其动作。理论分析证实了政策绩效的递增和解集空间的收缩,从而加快了收敛过程。经验证据表明,在两个强化学习基准测试中,RPO 在样本效率方面表现出了显著的优势。
Jun, 2024