指导式安全射击:基于模型强化学习的安全约束
引入了通用统一的安全强化学习开发基准(GUARD), 它是一个广义基准测试,涵盖了各种 RL 智能体、任务和安全约束规格。通过使用 GUARD 进行各种任务设置下的现有安全强化学习算法的比较,建立了未来工作可以构建基线的基础。
May, 2023
安全是扩展强化学习应用的关键。我们提出了一种约束无奖励强化学习方法,通过在受控环境中训练引导智能体以安全探索,最终实现有效的安全传输学习,帮助学生机器人更快地解决目标任务。
Jul, 2023
该论文提出了一种考虑安全性的学习算法,利用 Lyapunov 稳定性检验的控制理论结果和动力学统计模型,得到具备可证明稳定性证书的高性能控制策略,并通过高斯过程先验进一步保证数据安全性和提高控制性能。在反演摆模拟实验中表现出安全性高、控制性能良好的特点。
May, 2017
本文提出了两种新的安全强化学习方法,即 SafeFallback 和 GiveSafe,其安全约束公式与 RL 公式分离,可提供硬约束满足保证,且无需解决数学问题,从而降低计算能力要求,并具有更灵活的约束公式表述。方法可应用于超出 RL 的任何策略,同时提供硬约束保证,并在模拟多能源系统案例研究中验证了方法的有效性。
Jul, 2022
提出了一种新颖的框架,在强化学习代理中引入领域知识以促进安全探索和提高样本效率,该方法在 OpenAI 的 Gym 和 Safety-Gym 环境中的任务中均表现出了更安全的探索和更高的样本效率。
Apr, 2023
提出一种针对强化学习任务的风险预防训练方法,基于统计对比分类器,以预测状态 - 动作对导致不安全状态的概率,并且通过收集风险预防轨迹和重塑奖励函数,来引导安全强化学习策略。在机器人仿真环境中进行实验,结果表明该方法与现有的模型模式方法的表现相当,且优于传统的模型自由的安全强化学习方法。
Sep, 2022
在强化学习应用于现实系统时,确保安全是一个关键的挑战。因此,我们通过概率动力学模型提供一种基于控制理论的置信度安全过滤器方法,用于认证通过标准强化学习技术学习的名义策略的状态安全约束条件,将安全验证降低到标准强化学习任务。利用幻想输入的概念,我们将这种方法扩展到确定对未知系统具有高概率安全的 “备份” 策略。最后,在朝向备份策略的滚动过程中,每个时间步骤最小调整名义策略,以保证安全恢复。我们提供了正式的安全保证,并在实验中证明了我们方法的有效性。
Jul, 2022
本文提出了一种基于学习的模型预测控制方案,其可以提供可证明的高概率安全保证,并利用正态分布先验的规则性假设来构建可证明准确的置信区间,保证轨迹满足安全约束,通过终端集约束递归地保证每个迭代中存在安全控制动作。在实验中展现了该算法可以用来安全、高效地探索和学习动态系统。
Mar, 2018