对比风险预测下的安全强化学习

Sep, 2022

Safe Reinforcement Learning with Contrastive Risk Prediction

Hanping Zhang, Yuhong Guo

TL;DR提出一种针对强化学习任务的风险预防训练方法，基于统计对比分类器，以预测状态 - 动作对导致不安全状态的概率，并且通过收集风险预防轨迹和重塑奖励函数，来引导安全强化学习策略。在机器人仿真环境中进行实验，结果表明该方法与现有的模型模式方法的表现相当，且优于传统的模型自由的安全强化学习方法。

Abstract

As safety violations can lead to severe consequences in real-world robotic applications, the increasing deployment of reinforcement learning (RL) in robotic domains has propelled the study of safe exploration for

safe exploration reinforcement learning risk preventive training statistical contrastive classifier robotic simulation environments

发现论文，激发创造

通过想象近未来来实现安全强化学习

本研究关注应用于现实世界问题中的强化学习算法，提出了一种基于模型的算法可以规避不安全状态并降低安全违规，在连续控制任务中取得相当的回报.

Feb, 2022

安全强化学习的概率反例指导

本文提出了一个针对安全探索的方法，通过与安全需求反例指导训练，将连续和离散状态空间系统抽象成紧凑的抽象模型，并利用概率反例生成构造出最小化安全需求违规的模拟子模型，从而使代理人能够有效地训练其策略，以在随后的在线探索过程中尽量减少安全违规风险。

Jul, 2023

引导安全探索的强化学习

安全是扩展强化学习应用的关键。我们提出了一种约束无奖励强化学习方法，通过在受控环境中训练引导智能体以安全探索，最终实现有效的安全传输学习，帮助学生机器人更快地解决目标任务。

Jul, 2023

勘探的保守安全批评家

本文介绍了一种基于保守安全估计的强化学习安全探索方法，通过批判学习环境状态的保守安全估计，从理论上上界限制了灾难性失败概率，实验证明该方法在解决导航、操作和运动任务时达到了具有竞争力的任务性能，同步显著降低了灾难性失败率。

Oct, 2020

学习保证安全：带安全评论家的深度强化学习

为了将 RL 算法部署到实际场景中并在学习过程中确保安全性，我们提出了使用转移学习方法学习在一个任务环境中如何保持安全性，然后将所学用于约束在学习新任务时的行为，此方法在三个具有挑战性的领域中实证，相比于标准的深度 RL 技术和以前的安全 RL 方法，我们的方法不但减少了安全事故，还提高了学习的速度和稳定性。

Oct, 2020

具有稳定性保证的安全基于模型的强化学习

该论文提出了一种考虑安全性的学习算法，利用 Lyapunov 稳定性检验的控制理论结果和动力学统计模型，得到具备可证明稳定性证书的高性能控制策略，并通过高斯过程先验进一步保证数据安全性和提高控制性能。在反演摆模拟实验中表现出安全性高、控制性能良好的特点。

May, 2017

学习恢复区的安全强化学习（Recovery RL）

本文提出了一种名为 Recovery RL 的算法，它通过利用离线数据来学习约束违规区域并将任务性能和约束满足的目标分别交给两个策略来平衡任务收益与安全性，并在六个仿真领域和一个物理机器人上进行了试验，证明 Recovery RL 在这些领域内比先前的安全 RL 方法具有更高的效率和表现。

Oct, 2020

基于置信度过滤器的安全强化学习

在强化学习应用于现实系统时，确保安全是一个关键的挑战。因此，我们通过概率动力学模型提供一种基于控制理论的置信度安全过滤器方法，用于认证通过标准强化学习技术学习的名义策略的状态安全约束条件，将安全验证降低到标准强化学习任务。利用幻想输入的概念，我们将这种方法扩展到确定对未知系统具有高概率安全的 “备份” 策略。最后，在朝向备份策略的滚动过程中，每个时间步骤最小调整名义策略，以保证安全恢复。我们提供了正式的安全保证，并在实验中证明了我们方法的有效性。

Jul, 2022

安全和稳健的强化学习：原理和实践

通过综述方法与开放问题对最近几年来 RL 的安全和稳健性的相关研究工作进行总结，本文主要关注 RL 系统在现实场景中的安全性和稳健性挑战，探讨了算法、伦理和实践考虑等方面的主要维度以及如何增强 RL 代理的安全性和稳健性，同时讨论了环境因素和人的参与等影响因素，最后提出了一个实用的检查清单，以帮助从业者在各个应用领域负责任地部署 RL 系统。

Mar, 2024

自主车辆上的安全强化学习

本研究探讨了如何通过预测来约束探索，从而实现强化学习在自动驾驶中的安全学习。

Sep, 2019