基于度量感知的信赖域算法保证收敛的策略优化
本文提出了一种名为TRPO的实用算法,通过优化政策来达到保证单调改善的目的,并通过一系列实验展示了其在学习模拟机器人的Swimming、Hopping以及Walking,并使用屏幕图像玩Atari游戏等众多方面的优越表现。
Feb, 2015
提出一种基于离线数据的信任区域方法Trust-PCL,能够在强化学习中稳定策略优化算法,使用相对熵正则化器优化最大回报目标的最优策略和状态值满足一组多步路径一致性,提高了样本效率和解决方案质量。
Jul, 2017
本文介绍了一种名为Truly PPO的增强PPO方法,针对PPO在优化行为方面存在的问题进行了改进,通过使用新的剪辑函数来支持回滚行为,使用基于可信区域的触发条件替换剪辑的触发条件,从而提供了保证的拟态策略性能单调改进,从而改善了PPO在样本效率和性能方面的表现。
Mar, 2019
本文研究使用神经网络来完成深度强化学习中的策略优化,其中包括策略梯度和动作价值函数。在此基础上,通过分析无限维镜像下降的全局收敛性,证明了 PPO 和 TRPO 在使用过度参数化神经网络时收敛于全局最优策略,且收敛速度为次线性。
Jun, 2019
本文考虑在强化学习中使用的一种流行算法Trust region policy optimization(TRPO)与传统的凸分析中自然的信任域方法之间的关系,证明了TRPO的适应性调节机制实际上是传统信任域方法的RL版本,并在规则化MDP中,展示了快速收敛速率的结果,这是关于规则化即时成本或奖励时在RL中的首个更好的结果。
Sep, 2019
在这篇论文中,我们提出了一种新的算法,它通过一种接近性项稳定了策略改进,并限制由连续策略引发的折扣状态行动访问分布彼此接近,并通过离线训练和对抗性学习的方式学习这种接近性项。我们在基准高维控制任务中实证表明,我们提出的方法可以对稳定性产生有益影响,并提高最终性能.
Mar, 2020
本文提出了一种基于Wasserstein距离的Policy Optimization算法,称为Optimal Transport Trust Region Policy Optimization(OT-TRPO),用于连续状态-动作空间中的任务,通过提供一维对偶重构来避免无限维度优化问题,实现了对最优策略更新的分析推导,并在各种控制任务中进行了实验验证,证明了与最先进的方法相比,其优化效果更好。
Oct, 2022
本文提出了一个名为TREFree的算法,该算法采用广义代理目标来替代策略上的可信区间约束并在实践中通过保守优化广义目标来有效实施,从而获得更好的策略绩效和样本效率。
Feb, 2023
在离线强化学习中,基于行为策略的支持约束的支持下的支持信任区域优化(STR)保证了严格的策略改进,并在包括近似误差和采样误差的情况下保证步骤的安全策略改进,其理论和实证结果验证了其在MuJoCo运动领域和具有更具挑战性的AntMaze领域的卓越性能。
Nov, 2023
应用KL惩罚本身几乎足以强制执行信任区域,在实践中通过少于5%的额外梯度步骤引入"修复"阶段足以保证在每个策略更新时执行信任区域,产生与其他信任区域方法相竞争的结果。
Dec, 2023