学习屏障证明：朝着零训练时间违规的安全强化学习

Aug, 2021

学习屏障证明：朝着零训练时间违规的安全强化学习

Learning Barrier Certificates: Towards Safe Reinforcement Learning with Zero Training-time Violations

Yuping Luo, Tengyu Ma

TL;DR本文提出了一种名为 CRABS 的算法，通过学习屏障证书、动态模型和策略来实现 RL 的安全性，该算法在只有安全但微不足道的奖励初始策略的情况下，无需任何先前的知识和离线数据实现训练时零安全违规，经实证模拟表明，在状态空间仅为 2-4 维的简单环境中，该算法可以做到零安全违规。

Abstract

training-time safety violations have been a major concern when we deploy reinforcement learning algorithms in the real world. This paper explores the possibility of safe RL algorithms with zero training-time safety viol

safe reinforcement learning training-time safety violations dynamics model barrier certificates empirical simulations

发现论文，激发创造

SABLAS: 黑箱动态系统安全控制学习

本文提出了一种新的方法，用于从黑盒动态系统中学习安全控制策略和屏障证书，无需精确的系统模型，并证明了安全证书在黑盒系统上成立。

Jan, 2022

具有障碍认证的自适应强化学习及其在 Brushbot 导航中的应用

本文提出了一个安全学习框架，该框架采用自适应模型学习算法以及障碍证书，用于具有可能非平稳智能体动态的系统。本文使用稀疏优化技术提取模型的动态结构，并结合控制障碍证书来保持安全。在一定条件下，保证了违反安全性后的 Lypunov 稳定恢复。最终证明了该框架通过仿真和测试的方式，在具有未知、高度复杂和非平稳动态的机器人系统中是有效的。

Jan, 2018

应用 Lyapunov 障碍证书对深度强化学习控制器进行形式化验证

我们提出了一种新的方法来训练和验证基于 NLB 的证书，通过证书的序列设计和过滤来简化验证过程，并与神经网络验证引擎一起提供正式保证，以确保 DRL 代理实现其目标并避免不安全行为，通过在 DRL 控制的航天器上进行案例研究展示了该方法的优点。

May, 2024

对比风险预测下的安全强化学习

提出一种针对强化学习任务的风险预防训练方法，基于统计对比分类器，以预测状态 - 动作对导致不安全状态的概率，并且通过收集风险预防轨迹和重塑奖励函数，来引导安全强化学习策略。在机器人仿真环境中进行实验，结果表明该方法与现有的模型模式方法的表现相当，且优于传统的模型自由的安全强化学习方法。

Sep, 2022

学习保证安全：带安全评论家的深度强化学习

为了将 RL 算法部署到实际场景中并在学习过程中确保安全性，我们提出了使用转移学习方法学习在一个任务环境中如何保持安全性，然后将所学用于约束在学习新任务时的行为，此方法在三个具有挑战性的领域中实证，相比于标准的深度 RL 技术和以前的安全 RL 方法，我们的方法不但减少了安全事故，还提高了学习的速度和稳定性。

Oct, 2020

基于障碍函数的端到端安全强化学习在安全关键型连续控制任务中的应用

本文提出了一种控制器架构，该架构将模型自由的强化学习控制器与利用控制屏障函数和未知系统动态的模型控制器相结合，以确保学习过程中的安全，并利用高斯过程对系统动态进行建模和不确定性分析。

Mar, 2019

基于置信度过滤器的安全强化学习

在强化学习应用于现实系统时，确保安全是一个关键的挑战。因此，我们通过概率动力学模型提供一种基于控制理论的置信度安全过滤器方法，用于认证通过标准强化学习技术学习的名义策略的状态安全约束条件，将安全验证降低到标准强化学习任务。利用幻想输入的概念，我们将这种方法扩展到确定对未知系统具有高概率安全的 “备份” 策略。最后，在朝向备份策略的滚动过程中，每个时间步骤最小调整名义策略，以保证安全恢复。我们提供了正式的安全保证，并在实验中证明了我们方法的有效性。

Jul, 2022

连续动作空间中的安全探索

本文介绍了一种在物理系统（如数据中心冷却单元或机器人）中部署强化学习代理的方法，通过添加一层安全层，能够避免在学习过程中违反约束条件，并且通过在惯性路径上学习线性化模型解决了具有任意行动的问题。

Jan, 2018

学习恢复区的安全强化学习（Recovery RL）

本文提出了一种名为 Recovery RL 的算法，它通过利用离线数据来学习约束违规区域并将任务性能和约束满足的目标分别交给两个策略来平衡任务收益与安全性，并在六个仿真领域和一个物理机器人上进行了试验，证明 Recovery RL 在这些领域内比先前的安全 RL 方法具有更高的效率和表现。

Oct, 2020

具有稳定性保证的安全基于模型的强化学习

该论文提出了一种考虑安全性的学习算法，利用 Lyapunov 稳定性检验的控制理论结果和动力学统计模型，得到具备可证明稳定性证书的高性能控制策略，并通过高斯过程先验进一步保证数据安全性和提高控制性能。在反演摆模拟实验中表现出安全性高、控制性能良好的特点。

May, 2017