提出了一个系统的框架来统一安全强化学习和鲁棒强化学习的问题,包括问题的形式化、迭代方案、收敛性分析和实际算法设计。该框架建立在有约束的两人零和马尔可夫博弈上,提出了一种双重策略迭代方案,同时优化任务策略和安全策略。证明了该迭代方案的收敛性。此外,还设计了一种用于实际实现的深度强化学习算法,称为 DRAC。安全关键的基准评估表明,DRAC 在所有情景下(无对手、安全对手、性能对手)实现了高性能和持续的安全性,并且明显优于所有基准线。
Sep, 2023
该论文提出了一种考虑安全性的学习算法,利用 Lyapunov 稳定性检验的控制理论结果和动力学统计模型,得到具备可证明稳定性证书的高性能控制策略,并通过高斯过程先验进一步保证数据安全性和提高控制性能。在反演摆模拟实验中表现出安全性高、控制性能良好的特点。
May, 2017
提出了一种安全探索方法,该方法利用受控对象和干扰的部分先前知识,以确保满足特定的状态约束条件,即使受控对象暴露于遵循正常分布的随机干扰下。
Sep, 2022
本文研究了安全强化学习中观测对抗攻击的安全性和鲁棒性,并提出了两种新方法以最大化代价或奖励来攻击目标,同时提出了一种鲁棒性训练框架。
May, 2022
本文提出了一种基于风险规避的探索策略,使用分布式鲁棒策略迭代方案来确保学习过程中的安全,并在连续状态 / 操作空间中扩展了此方法,得出了分布式鲁棒软演员 - 批评家算法的实用算法。
Feb, 2019
该研究比较了 Robust Adversarial Reinforcement Learning 和 Neural Fictitious Self Play 算法在自动驾驶场景下的性能表现,将学习问题定义为自主系统与环境干扰之间的两人博弈,扩展为半竞争的情况,结果表明对手更好地捕捉了有意义的干扰,从而产生了更好的驾驶效率和减少了与传统强化学习方法相比的碰撞率。
Mar, 2019
我们提出了一个采用深度强化学习的框架,通过相干畸变风险度量考虑模型不确定性的风险规避观点,并表明我们的公式等价于具有性能和安全保障的分布鲁棒安全强化学习问题,并展示了我们框架在 Real-World 强化学习套件中各种具有安全约束的连续控制任务上产生了稳健安全的表现。
Jan, 2023
通过综述方法与开放问题对最近几年来 RL 的安全和稳健性的相关研究工作进行总结,本文主要关注 RL 系统在现实场景中的安全性和稳健性挑战,探讨了算法、伦理和实践考虑等方面的主要维度以及如何增强 RL 代理的安全性和稳健性,同时讨论了环境因素和人的参与等影响因素,最后提出了一个实用的检查清单,以帮助从业者在各个应用领域负责任地部署 RL 系统。
Mar, 2024
通过学习算法构建安全控制器以实现安全强化学习,提出了三阶段的架构 TU-Recovery Architecture,并通过辅助奖励来缓解对抗现象,以提高安全控制器在任务训练中的回报率和约束违规率。
为了确保机器人等自主车辆的广泛部署,本文提出了一种新的闭环范式用于综合安全控制策略,明确考虑系统在可能的未来情景下的演变不确定性,通过物理动力学和机器人的学习算法共同推理,利用对抗深度强化学习进行放大,展示了该框架能够处理贝叶斯信念传播和大规模预训练神经轨迹预测模型引起的隐式学习。