基于信赖域引导的近端策略优化
提出一种基于离线数据的信任区域方法Trust-PCL,能够在强化学习中稳定策略优化算法,使用相对熵正则化器优化最大回报目标的最优策略和状态值满足一组多步路径一致性,提高了样本效率和解决方案质量。
Jul, 2017
本研究提出了一种新的针对增强学习的策略梯度方法,称为近端策略优化(PPO),通过与环境的交互采样数据,并使用随机梯度上升优化“替代”目标函数,不同于标准的策略梯度方法,该方法可以实现多个小批量更新周期,实验结果表明PPO在模拟机器人运动和Atari视频游戏玩耍等基准任务上的表现优于其他在线策略梯度方法,同时在样本复杂度、实现简单性和时间效率等方面取得了有利的平衡。
Jul, 2017
本文介绍了一种名为Truly PPO的增强PPO方法,针对PPO在优化行为方面存在的问题进行了改进,通过使用新的剪辑函数来支持回滚行为,使用基于可信区域的触发条件替换剪辑的触发条件,从而提供了保证的拟态策略性能单调改进,从而改善了PPO在样本效率和性能方面的表现。
Mar, 2019
本文研究使用神经网络来完成深度强化学习中的策略优化,其中包括策略梯度和动作价值函数。在此基础上,通过分析无限维镜像下降的全局收敛性,证明了 PPO 和 TRPO 在使用过度参数化神经网络时收敛于全局最优策略,且收敛速度为次线性。
Jun, 2019
本文考虑在强化学习中使用的一种流行算法Trust region policy optimization(TRPO)与传统的凸分析中自然的信任域方法之间的关系,证明了TRPO的适应性调节机制实际上是传统信任域方法的RL版本,并在规则化MDP中,展示了快速收敛速率的结果,这是关于规则化即时成本或奖励时在RL中的首个更好的结果。
Sep, 2019
本文探讨基于KL散度的信任域方法在强化学习中的应用,进而提出基于Wasserstein和Sinkhorn两种新的信任域方法用于策略优化,并在多个任务中进行了实验验证。
Jun, 2023
通过简单的目标调整,我们发现在连续行动空间中,将 Proximal Policy Optimization (PPO) 的重要性采样目标替换为截断等价的基础策略梯度可以持续改善其性能,并且这种悲观的优化促进了增强性探索,从而在单任务、约束和多任务学习中产生了改进的学习效果,而不增加显著的计算成本或复杂性。
Nov, 2023
应用KL惩罚本身几乎足以强制执行信任区域,在实践中通过少于5%的额外梯度步骤引入"修复"阶段足以保证在每个策略更新时执行信任区域,产生与其他信任区域方法相竞争的结果。
Dec, 2023
通过引入自适应PPO-CLIP(Adaptive-PPO)方法,动态探索和利用带卡尔曼滤波的剪辑边界,在线训练过程中改善PPO的性能,并通过大量实验初步证明我们的自适应PPO对比PPO-CLIP表现出的样本效率和性能。
Dec, 2023
本文介绍了SPO(简化策略优化)算法,该算法通过引入一种新的KL散度夹紧方法,能够在几乎所有环境中有效地强制执行信任区域约束,同时仍然保持一阶算法的简单性。在Atari 2600环境中进行的比较实验表明,SPO有时比PPO算法更强大。
Jan, 2024