动作鲁棒性强化学习及其在连续控制中的应用
提出了一种稳健性的敌对训练(robust adversarial reinforcement learning, RARL)方法,该方法将敌对训练与零和极小优化相结合,通过训练一个智能体,使其能够在真实系统上的杂乱因素和不确定性下操作,并在多种环境中进行了验证。
Mar, 2017
提供了一个框架,可将稳健性合并到持续控制强化学习算法中,通过学习最优策略并推导相应的鲁棒性熵正则化贝尔曼收缩算子来实现,并进一步引入了较不保守的软稳健熵正则化目标及相应贝尔曼算子,实验证明在九个领域的环境扰动及高维度的机器人控制方面,稳健和软稳健策略均优于无鲁棒性策略,并提供了多个探究实验来深入理解框架的其它特性。
Jun, 2019
研究了机器学习在具备恶意状态/执行机构攻击下的表现,介绍了深度强化学习在决策和控制任务中存在漏洞的问题,提出了通过对抗训练来提高深度强化学习代理的抗干扰性以实现系统的稳定性和鲁棒性。
Jul, 2020
本文提出了一种基于不确定参数空间的不确定性集合正则化器USR,以提高强化学习在真实世界机器人领域中的鲁棒性和推广性,并在实际测试环境下对其进行评估。
Jul, 2022
本文研究了部分可观测马尔可夫决策问题中的策略鲁棒性,并提出了一种能够兼顾奖励性能和稳健性的方案,能够应用于任何策略梯度算法,并且保持原动态规划算法的收敛性。经过对安全关键RL环境的数值实验表明,本文提出的方法能够在引入策略滚动中的状态误差时实现高强度鲁棒性。
Sep, 2022
本文探讨了具有概率性策略执行不确定性的抗干扰强化学习问题,并提出了 ARRLC 算法,该算法具有极小化最坏情况下收益损失和样本复杂性的性质,并在实验中验证了其在存在干扰情况下的稳健性。
Jul, 2023
我们提出了两种新的不确定性集合形式,一种基于双重采样,另一种基于积分概率度量,以应对训练模拟器和测试环境之间的模型不匹配问题,并通过引入函数近似的鲁棒自然行为者-评论者(RNAC)方法,为所提出的RNAC算法在有限时间内收敛到最优鲁棒策略提供了保证,并在多个MuJoCo环境和实际TurtleBot导航任务中展示了所学习策略的鲁棒性能。
Jul, 2023
通过综述方法与开放问题对最近几年来RL的安全和稳健性的相关研究工作进行总结,本文主要关注RL系统在现实场景中的安全性和稳健性挑战,探讨了算法、伦理和实践考虑等方面的主要维度以及如何增强RL代理的安全性和稳健性,同时讨论了环境因素和人的参与等影响因素,最后提出了一个实用的检查清单,以帮助从业者在各个应用领域负责任地部署RL系统。
Mar, 2024
应用鲁棒MDPs框架及引入一种新型的学习过渡模型,该研究在模型为基础的环境中通过辅助悲观模型来提高策略的鲁棒性,并在实验中展示了该模型在失真MDPs中提高学习策略性能的显著改进。
Jun, 2024