指导式安全射击：基于模型强化学习的安全约束

Jun, 2022

指导式安全射击：基于模型强化学习的安全约束

Guided Safe Shooting: model based reinforcement learning with safety constraints

Giuseppe Paolo, Jonas Gonzalez-Billandon, Albert Thomas, Balázs Kégl

TL;DR本文介绍了一种基于模型的强化学习方法 Guided Safe Shooting (GuSS)，可以学习对系统进行控制，并在保证安全的前提下探索状态空间，从而避免危险情况的发生，并减少与真实系统的交互次数。

Abstract

In the last decade, reinforcement learning successfully solved complex control tasks and decision-making problems, like the Go board game. Yet, there are few success stories when it comes to deploying those algorithms to →

reinforcement learning guided safe shooting safety constraints model-based rl real-world scenarios

发现论文，激发创造

GUARD：一个安全的强化学习基准

引入了通用统一的安全强化学习开发基准（GUARD）, 它是一个广义基准测试，涵盖了各种 RL 智能体、任务和安全约束规格。通过使用 GUARD 进行各种任务设置下的现有安全强化学习算法的比较，建立了未来工作可以构建基线的基础。

May, 2023

引导安全探索的强化学习

安全是扩展强化学习应用的关键。我们提出了一种约束无奖励强化学习方法，通过在受控环境中训练引导智能体以安全探索，最终实现有效的安全传输学习，帮助学生机器人更快地解决目标任务。

Jul, 2023

通过想象近未来来实现安全强化学习

本研究关注应用于现实世界问题中的强化学习算法，提出了一种基于模型的算法可以规避不安全状态并降低安全违规，在连续控制任务中取得相当的回报.

Feb, 2022

具有稳定性保证的安全基于模型的强化学习

该论文提出了一种考虑安全性的学习算法，利用 Lyapunov 稳定性检验的控制理论结果和动力学统计模型，得到具备可证明稳定性证书的高性能控制策略，并通过高斯过程先验进一步保证数据安全性和提高控制性能。在反演摆模拟实验中表现出安全性高、控制性能良好的特点。

May, 2017

基于已知约束函数的多能源管理系统安全强化学习

本文提出了两种新的安全强化学习方法，即 SafeFallback 和 GiveSafe，其安全约束公式与 RL 公式分离，可提供硬约束满足保证，且无需解决数学问题，从而降低计算能力要求，并具有更灵活的约束公式表述。方法可应用于超出 RL 的任何策略，同时提供硬约束保证，并在模拟多能源系统案例研究中验证了方法的有效性。

Jul, 2022

System III: 使用领域知识进行学习以满足安全限制

提出了一种新颖的框架，在强化学习代理中引入领域知识以促进安全探索和提高样本效率，该方法在 OpenAI 的 Gym 和 Safety-Gym 环境中的任务中均表现出了更安全的探索和更高的样本效率。

Apr, 2023

对比风险预测下的安全强化学习

提出一种针对强化学习任务的风险预防训练方法，基于统计对比分类器，以预测状态 - 动作对导致不安全状态的概率，并且通过收集风险预防轨迹和重塑奖励函数，来引导安全强化学习策略。在机器人仿真环境中进行实验，结果表明该方法与现有的模型模式方法的表现相当，且优于传统的模型自由的安全强化学习方法。

Sep, 2022

基于置信度过滤器的安全强化学习

在强化学习应用于现实系统时，确保安全是一个关键的挑战。因此，我们通过概率动力学模型提供一种基于控制理论的置信度安全过滤器方法，用于认证通过标准强化学习技术学习的名义策略的状态安全约束条件，将安全验证降低到标准强化学习任务。利用幻想输入的概念，我们将这种方法扩展到确定对未知系统具有高概率安全的 “备份” 策略。最后，在朝向备份策略的滚动过程中，每个时间步骤最小调整名义策略，以保证安全恢复。我们提供了正式的安全保证，并在实验中证明了我们方法的有效性。

Jul, 2022

自主车辆上的安全强化学习

本研究探讨了如何通过预测来约束探索，从而实现强化学习在自动驾驶中的安全学习。

Sep, 2019

基于学习的模型预测控制用于安全探索

本文提出了一种基于学习的模型预测控制方案，其可以提供可证明的高概率安全保证，并利用正态分布先验的规则性假设来构建可证明准确的置信区间，保证轨迹满足安全约束，通过终端集约束递归地保证每个迭代中存在安全控制动作。在实验中展现了该算法可以用来安全、高效地探索和学习动态系统。

Mar, 2018