不确定性感知策略优化:一种稳健、自适应的信任区域方法
本文提出了一种名为TRPO的实用算法,通过优化政策来达到保证单调改善的目的,并通过一系列实验展示了其在学习模拟机器人的Swimming、Hopping以及Walking,并使用屏幕图像玩Atari游戏等众多方面的优越表现。
Feb, 2015
提出一种基于离线数据的信任区域方法Trust-PCL,能够在强化学习中稳定策略优化算法,使用相对熵正则化器优化最大回报目标的最优策略和状态值满足一组多步路径一致性,提高了样本效率和解决方案质量。
Jul, 2017
通过使用深度神经网络同时学习模型和策略,我们分析了基于模型的增强学习方法的行为,并展示出学习到的策略倾向于利用模型学习不足的区域,导致训练不稳定。为了解决这个问题,我们提出使用模型集合来维护模型的不确定性并规范学习过程,并进一步展示,与“Backpropagation through time”相比,使用“likelihood ratio”导数可以获得更加稳定的学习。通过我们的方法ME-TRPO,在具有挑战性的连续控制基准任务中,显著减少了比基于模型的深度RL方法所需的样本数量。
Feb, 2018
通过采用贝叶斯推断优化模糊集的大小和位置,提出了一种新范式,无需使用置信区间作为模糊集,可在保证健壮性的同时获得更好的解,基于理论分析和实证结果表明其安全性和实用性。
Feb, 2019
本文介绍了一种名为Truly PPO的增强PPO方法,针对PPO在优化行为方面存在的问题进行了改进,通过使用新的剪辑函数来支持回滚行为,使用基于可信区域的触发条件替换剪辑的触发条件,从而提供了保证的拟态策略性能单调改进,从而改善了PPO在样本效率和性能方面的表现。
Mar, 2019
我们提出了一种新的强化学习算法:Hindsight Trust Region Policy Optimization,它通过利用hindsight来提高稀疏抽奖的表现,并引入了QKL和HGF两种方法来提高学习稳定性和表现。我们在各种稀疏抽奖任务中评估了HTRPO,包括简单的基准测试、基于图像的 Atari 游戏和模拟机器人控制。消融研究表明,QKL和HGF对学习稳定性和高性能有很大贡献。比较结果表明,在所有任务中,HTRPO始终优于TRPO和HPG。
Jul, 2019
这篇论文提出了一种新的基于模型不确定性的政策优化方法POMBU,通过利用Q值的不确定性,可以有效提高渐近性能并提高样本效率,并通过保守的优化算法实现鲁棒性。实验证明,POMBU在样本效率和渐近性能方面优于现有的最先进的算法,并且相对于以前的基于模型的方法具有很好的鲁棒性。
Nov, 2019
本文提出了可微分的神经网络层来通过闭合形式的投影来执行深度高斯策略的信任区域,为Gaussian分布导出了基于KL散度、Wasserstein L2距离和Frobenius范数的信任区域投影。实验证明,这些投影层可以实现类似或更好的结果,而且几乎对于具体的实现选择是不敏感的。
Jan, 2021
本文探讨基于KL散度的信任域方法在强化学习中的应用,进而提出基于Wasserstein和Sinkhorn两种新的信任域方法用于策略优化,并在多个任务中进行了实验验证。
Jun, 2023
应用KL惩罚本身几乎足以强制执行信任区域,在实践中通过少于5%的额外梯度步骤引入"修复"阶段足以保证在每个策略更新时执行信任区域,产生与其他信任区域方法相竞争的结果。
Dec, 2023