不确定性感知策略优化:一种稳健、自适应的信任区域方法
通过使用深度神经网络同时学习模型和策略,我们分析了基于模型的增强学习方法的行为,并展示出学习到的策略倾向于利用模型学习不足的区域,导致训练不稳定。为了解决这个问题,我们提出使用模型集合来维护模型的不确定性并规范学习过程,并进一步展示,与 “Backpropagation through time” 相比,使用 “likelihood ratio” 导数可以获得更加稳定的学习。通过我们的方法 ME-TRPO,在具有挑战性的连续控制基准任务中,显著减少了比基于模型的深度 RL 方法所需的样本数量。
Feb, 2018
本文提出了一种名为 TRPO 的实用算法,通过优化政策来达到保证单调改善的目的,并通过一系列实验展示了其在学习模拟机器人的 Swimming、Hopping 以及 Walking,并使用屏幕图像玩 Atari 游戏等众多方面的优越表现。
Feb, 2015
该研究提出了 Actor-Critic RL 算法的不确定性和 OOD 状态的定义,使用多种不确定性估计方法,展示不同的 OOD 检测性能,并提出了一种 Pareto 优化问题的解决方案,应用 Masksembles 方法成功的平衡了奖励和 OOD 检测性能。
Oct, 2022
本文提出了一种基于样本的方法来估计未知的不确定性集并设计了一种鲁棒 Q 学习算法和鲁棒 TDC 算法,可以在线上和增量的情况下实现,在不需要收敛性保证的情况下证明了 Q 学习算法收敛到最优的鲁棒 Q 函数,并证明了 TDC 算法渐近收敛到一些稳定点,在数值实验中进一步验证了算法的鲁棒性。
Sep, 2021
对 Proximal policy optimization 的探索行为进行了深入分析,提出了一种名为 Trust Region-Guided PPO 的新的策略优化方法,通过自适应调整裁剪范围解决了初始条件差的情况下缺乏探索的问题,并证明其相较于原始的 PPO 算法有更好的性能表现。
Jan, 2019
通过引入自适应 PPO-CLIP(Adaptive-PPO)方法,动态探索和利用带卡尔曼滤波的剪辑边界,在线训练过程中改善 PPO 的性能,并通过大量实验初步证明我们的自适应 PPO 对比 PPO-CLIP 表现出的样本效率和性能。
Dec, 2023
我们引入了一种简单而有效的方法来管理基于模型的强化学习中的风险,该方法使用了概率安全约束、在确知不确定性面前的乐观和在事件性不确定性面前的悲观以及一组随机神经网络的平衡。各种实验证明,不确定性的分离对于在不确定和安全关键的控制环境中使用数据驱动的 MPC 方法表现良好是至关重要的。
Sep, 2023
我们提出了一个采用深度强化学习的框架,通过相干畸变风险度量考虑模型不确定性的风险规避观点,并表明我们的公式等价于具有性能和安全保障的分布鲁棒安全强化学习问题,并展示了我们框架在 Real-World 强化学习套件中各种具有安全约束的连续控制任务上产生了稳健安全的表现。
Jan, 2023
在离线强化学习中,基于行为策略的支持约束的支持下的支持信任区域优化(STR)保证了严格的策略改进,并在包括近似误差和采样误差的情况下保证步骤的安全策略改进,其理论和实证结果验证了其在 MuJoCo 运动领域和具有更具挑战性的 AntMaze 领域的卓越性能。
Nov, 2023
论文提出了一种针对运行时不确定性的离线评估方法,该方法允许所得的估算器不仅对预期中的运行时不确定性具有鲁棒性,还对观察到的和意外的运行时不确定性具有鲁棒性,并且有效地证明其在仿真和现实世界在线实验中的鲁棒性。
Feb, 2022