强化学习的鲁棒性策略梯度方法
论文研究了缺失真实环境信息的强化学习问题,将鲁棒MDP框架扩展到无模型参数条件下的RL设置中,提出了三个具有鲁棒性的Q-learning、SARSA和TD-learning算法,并通过函数逼近扩展到大规模MDPs,证明了其收敛性,并给出了保证局部最小的随机梯度下降算法。
Jun, 2017
提供了一个框架,可将稳健性合并到持续控制强化学习算法中,通过学习最优策略并推导相应的鲁棒性熵正则化贝尔曼收缩算子来实现,并进一步引入了较不保守的软稳健熵正则化目标及相应贝尔曼算子,实验证明在九个领域的环境扰动及高维度的机器人控制方面,稳健和软稳健策略均优于无鲁棒性策略,并提供了多个探究实验来深入理解框架的其它特性。
Jun, 2019
本文研究了如何在离线数据中高效地估计策略梯度。我们提出了一个元算法,在不需要参数假设的情况下实现了可行均方误差的渐进下界,并且具有三重双重稳健性质。我们还讨论了如何估计算法所依赖的干扰量。最后,我们证明了当我们朝着新的策略梯度方向迈出步伐时,我们接近稳态点的速度是有保证的。
Feb, 2020
本文研究了部分可观测马尔可夫决策问题中的策略鲁棒性,并提出了一种能够兼顾奖励性能和稳健性的方案,能够应用于任何策略梯度算法,并且保持原动态规划算法的收敛性。经过对安全关键RL环境的数值实验表明,本文提出的方法能够在引入策略滚动中的状态误差时实现高强度鲁棒性。
Sep, 2022
探讨了强化学习中的模拟环境和真实环境之间存在的不匹配问题,设计了一种基于最小-最大优化的离线演员-评论家算法(M2TD3)来优化不确定性参数集上的最坏情况表现,实现了该方法在MuJoco环境中的效果优于多个基准方法。
Nov, 2022
本文介绍了一种名为Robust Policy Optimization的算法,该算法应用于强化学习中,利用扰动分布来提高策略的熵,提高探索性能,取得了比PPO等算法更好的性能表现,并在多个环境中表现出鲁棒性能。
Dec, 2022
我们提出了两种新的不确定性集合形式,一种基于双重采样,另一种基于积分概率度量,以应对训练模拟器和测试环境之间的模型不匹配问题,并通过引入函数近似的鲁棒自然行为者-评论者(RNAC)方法,为所提出的RNAC算法在有限时间内收敛到最优鲁棒策略提供了保证,并在多个MuJoCo环境和实际TurtleBot导航任务中展示了所学习策略的鲁棒性能。
Jul, 2023
在训练环境下,现有的关于约束强化学习(RL)的研究可能可以获得良好的策略。然而,在真实环境中部署时,由于训练与真实环境之间可能存在模型不匹配,它可能很容易违反最初满足的约束。为了解决上述挑战,我们将问题形式化为模型不确定性下的约束强化学习,即旨在学习一个能够优化奖励并同时满足模型不匹配下的约束的良好策略。我们提出了一种名为鲁棒约束策略优化(RCPO)的算法,这是一种适用于大型/连续状态空间且在训练期间每次迭代都具有最坏情况奖励改进和约束违规的理论保证的算法。我们在一组具有约束条件的强化学习任务上展示了我们算法的有效性。
May, 2024