强化学习的安全裕度

Jul, 2023

Safety Margins for Reinforcement Learning

Alexander Grushin, Walt Woods, Alvaro Velasquez, Simon Khan

TL;DR任何自主控制器在某些情况下都可能不安全，定量识别这些不安全情况的能力对于及时引起人类监督至关重要。本研究展示了真正危急情况的临界性可以被鲁棒地定义为随机行动导致的奖励减少的平均值。可以将实时计算的代理临界性度量与真正的临界性进行比较，并展示如何利用这些代理度量生成安全裕度，直接将潜在错误行动的后果与整体性能损失联系起来。我们在 Atari 环境中评估了来自 APE-X 和 A3C 的学习策略，并展示了安全裕度随着代理逼近失败状态而减少。将安全裕度整合到监测已部署代理的程序中，可以实时识别潜在的灾难性情况。

Abstract

Any autonomous controller will be unsafe in some situations. The ability to quantitatively identify when these unsafe situations are about

autonomous controller unsafe situations quantitatively identify proxy criticality metrics safety margins

发现论文，激发创造

学习保证安全：带安全评论家的深度强化学习

为了将 RL 算法部署到实际场景中并在学习过程中确保安全性，我们提出了使用转移学习方法学习在一个任务环境中如何保持安全性，然后将所学用于约束在学习新任务时的行为，此方法在三个具有挑战性的领域中实证，相比于标准的深度 RL 技术和以前的安全 RL 方法，我们的方法不但减少了安全事故，还提高了学习的速度和稳定性。

Oct, 2020

AI 安全中的临界性概念

本文提出了一种更有效的解决 AI 安全中的价值同步问题的解决方案，其方法是利用关键指标来测量动作的重要性，只在关键动作时需要操作者进行干预，操作者在处理其他工作时也能保证安全。

Jan, 2022

最坏情况策略梯度

该研究提出了一种基于 Actor-Critic 框架和条件风险价值的深度强化学习方法，应用于驾驶模拟中，实现了在保证安全的前提下尽量提高任务完成效率，并且相比于其他深度强化学习方法，该方法更具有泛化性。

Nov, 2019

对比风险预测下的安全强化学习

提出一种针对强化学习任务的风险预防训练方法，基于统计对比分类器，以预测状态 - 动作对导致不安全状态的概率，并且通过收集风险预防轨迹和重塑奖励函数，来引导安全强化学习策略。在机器人仿真环境中进行实验，结果表明该方法与现有的模型模式方法的表现相当，且优于传统的模型自由的安全强化学习方法。

Sep, 2022

安全关键环境下的强化学习谨慎自适应

提出一种安全关键的适应性强化学习任务设置和解决方案 CARL，通过以多样化环境中的先前经验来评估风险，实现对新领域的谨慎探索并避免灾难状态，为城市驾驶等安全关键环境下的强化学习提供可行性。

Aug, 2020

具备死亡避免和恢复功能的安全强化学习

本文提出了一种较少对 RL 探索限制的安全 RL 框架方法，通过利用预训练的安全批判和安全恢复策略来构建一个划定安全状态的边界，并采用行为校正机制确保代理只采取安全动作，该方法在连续控制任务中表现出更好的任务性能和更少的安全违规。

Jun, 2023

ROSARL: 仅基于奖励的安全强化学习

在强化学习中，设计能够在一个环境中安全地解决任务的代理人是一个重要的问题。本文提出了一个实用的无模型算法，它可以帮助代理人学习 Minmax 惩罚，而且在学习任务策略的同时使其学习安全策略。这个算法可以在高维连续控制环境中产生学习安全策略的代理人。

May, 2023

关于自动驾驶车辆风险评分的反事实安全边界视角

自动驾驶车辆的风险评估是一项具有挑战性的任务，本文提出了一种基于数据驱动的框架，通过对 “不当行为” 道路用户的对照模拟来比较不同自动驾驶车辆在不同操作设计领域的风险。引入了反事实安全余量的概念，用于表示最小偏差与正常行为之间可能导致碰撞的关系，展示了该方法在未知行为策略下仍可适用，从而有助于第三方风险评估，并在自动驾驶车辆供应商之间的相对风险方面提供了洞察。

Aug, 2023

连续动作空间中的安全探索

本文介绍了一种在物理系统（如数据中心冷却单元或机器人）中部署强化学习代理的方法，通过添加一层安全层，能够避免在学习过程中违反约束条件，并且通过在惯性路径上学习线性化模型解决了具有任意行动的问题。

Jan, 2018

安全强化学习的概率反例指导

本文提出了一个针对安全探索的方法，通过与安全需求反例指导训练，将连续和离散状态空间系统抽象成紧凑的抽象模型，并利用概率反例生成构造出最小化安全需求违规的模拟子模型，从而使代理人能够有效地训练其策略，以在随后的在线探索过程中尽量减少安全违规风险。

Jul, 2023