GUARD：一个安全的强化学习基准

May, 2023

GUARD: A Safe Reinforcement Learning Benchmark

Weiye Zhao, Rui Chen, Yifan Sun, Ruixuan Liu, Tianhao Wei...

TL;DR引入了通用统一的安全强化学习开发基准（GUARD）, 它是一个广义基准测试，涵盖了各种 RL 智能体、任务和安全约束规格。通过使用 GUARD 进行各种任务设置下的现有安全强化学习算法的比较，建立了未来工作可以构建基线的基础。

Abstract

Due to the trial-and-error nature, it is typically challenging to apply RL algorithms to safety-critical real-world applications, such as autonomous driving, human-robot interaction, robot manipulation, etc, where such errors are not tolerable. Recently, →

safe rl guard reinforcement learning safety-critical autonomous driving

发现论文，激发创造

安全体育场：统一的安全强化学习基准

这篇论文介绍了一个名为 Safety-Gymnasium 的环境套件和一个名为 Safe Policy Optimization 的算法库，其中包含了 16 种最先进的安全强化学习算法，旨在促进安全性能的评估和比较，并推动强化学习在更安全、更可靠和负责任的实际应用中的发展。

Oct, 2023

引导安全探索的强化学习

安全是扩展强化学习应用的关键。我们提出了一种约束无奖励强化学习方法，通过在受控环境中训练引导智能体以安全探索，最终实现有效的安全传输学习，帮助学生机器人更快地解决目标任务。

Jul, 2023

仿真机器人臂的安全强化学习

通过在 Panda 机械臂创建自定义环境，扩展安全强化学习算法的适用性，并通过与基准版本的比较表明，在满足安全约束条件的同时，受限版本能够学习到同样好的策略，但需要更长的训练时间。

Nov, 2023

指导式安全射击：基于模型强化学习的安全约束

本文介绍了一种基于模型的强化学习方法 Guided Safe Shooting (GuSS)，可以学习对系统进行控制，并在保证安全的前提下探索状态空间，从而避免危险情况的发生，并减少与真实系统的交互次数。

Jun, 2022

学习保证安全：带安全评论家的深度强化学习

为了将 RL 算法部署到实际场景中并在学习过程中确保安全性，我们提出了使用转移学习方法学习在一个任务环境中如何保持安全性，然后将所学用于约束在学习新任务时的行为，此方法在三个具有挑战性的领域中实证，相比于标准的深度 RL 技术和以前的安全 RL 方法，我们的方法不但减少了安全事故，还提高了学习的速度和稳定性。

Oct, 2020

safe-control-gym：机器人安全学习控制和强化学习一个统一的基准测试套件

提出了一个名为 safe-control-gym 的新开源基准套件，支持模型和数据驱动控制技术，在 3 个动态系统和 2 个控制任务上提供实现，并建议将 OpenAI 的 Gym API 扩展为支持符号动态和限制条件的查询，并演示如何使用 safe-control-gym 来量化比较传统控制、基于学习的控制和强化学习的多种方法的控制性能、数据效率和安全性。

Sep, 2021

安全和稳健的强化学习：原理和实践

通过综述方法与开放问题对最近几年来 RL 的安全和稳健性的相关研究工作进行总结，本文主要关注 RL 系统在现实场景中的安全性和稳健性挑战，探讨了算法、伦理和实践考虑等方面的主要维度以及如何增强 RL 代理的安全性和稳健性，同时讨论了环境因素和人的参与等影响因素，最后提出了一个实用的检查清单，以帮助从业者在各个应用领域负责任地部署 RL 系统。

Mar, 2024

安全强化学习综述：方法、理论与应用

该论文从方法、理论和应用的角度回顾了安全强化学习的进展，提出了 “2H3W” 问题并分析了解决这些问题的理论和算法进展；还讨论了安全强化学习方法的样本复杂度，并介绍了相关应用和基准，最后开启了安全强化学习中的挑战问题的讨论并发布了一个包含主要安全强化学习算法实现和教程的基准套件。

May, 2022

安全强化学习中的约束形式调查

基于约束条件的安全强化学习方法在实现安全优化代理策略方面发挥了重要作用，本研究综述了代表性约束形式以及专为每种形式设计的算法，并揭示了常见问题形式之间的数学相互关系，最后讨论了安全强化学习研究的现状和未来方向。

Feb, 2024

具有稳定性保证的安全基于模型的强化学习

该论文提出了一种考虑安全性的学习算法，利用 Lyapunov 稳定性检验的控制理论结果和动力学统计模型，得到具备可证明稳定性证书的高性能控制策略，并通过高斯过程先验进一步保证数据安全性和提高控制性能。在反演摆模拟实验中表现出安全性高、控制性能良好的特点。

May, 2017