隐式安全集算法的可证明安全强化学习

May, 2024

隐式安全集算法的可证明安全强化学习

Implicit Safe Set Algorithm for Provably Safe Reinforcement Learning

Weiye Zhao, Tairan He, Feihan Li, Changliu Liu

TL;DR深度强化学习在许多连续控制任务中表现出卓越性能，但其真实世界应用的一个重要障碍是缺乏安全保证。本文提出了一种无模型安全控制算法 —— 隐式安全集算法，用于合成确保训练过程中可证明安全性的 DRL 代理的安全保障。该算法通过查询黑盒动力函数（例如数字孪生模拟器）仅合成安全指标（屏障凭证）和随后的安全控制策略。此外，我们在连续时间和离散时间系统上理论上证明了隐式安全集算法保证有限时间收敛到安全集和正向不变性。我们在最先进的 Safety Gym 基准测试中验证了所提出的算法，在实现与最先进的安全 DRL 方法相比，它实现了零安全违规，同时达到了 95% ± 9% 的累积奖励，并且该算法对高维系统并行计算具有良好的扩展性。

Abstract

deep reinforcement learning (DRL) has demonstrated remarkable performance in many continuous control tasks. However, a significant obstacle to the real-world application of DRL is the lack of safety guarantees. A

deep reinforcement learning safety guarantees safe control algorithm implicit safe set algorithm high-dimensional systems

发现论文，激发创造

受限马尔科夫决策过程中的安全策略改进

该研究提出了一种解决增强学习自动合成策略的算法，该算法通过解决奖励形状设计和安全策略更新等挑战来实现，同时使用基于模型的 RL 算法来有效地利用我们收集的数据，并在标准控制基准中展示了其有效性和鲁棒性。

Oct, 2022

针对对抗性干扰的坚固安全强化学习

该论文提出了一种鲁棒安全强化学习框架，解决了在真实控制任务中应用强化学习时外部干扰的安全性问题，该框架通过建立鲁棒不变集合来保证安全，并采用约束强化学习算法进行策略优化。

Oct, 2023

具有稳定性保证的安全基于模型的强化学习

该论文提出了一种考虑安全性的学习算法，利用 Lyapunov 稳定性检验的控制理论结果和动力学统计模型，得到具备可证明稳定性证书的高性能控制策略，并通过高斯过程先验进一步保证数据安全性和提高控制性能。在反演摆模拟实验中表现出安全性高、控制性能良好的特点。

May, 2017

基于采样的安全强化学习在非线性动力系统中的应用

我们开发了一种可证明安全和收敛的非线性动态系统控制的强化学习算法，填补了控制理论的强安全性保证和强化学习理论的收敛保证之间的差距。我们的方法通过单阶段的基于采样的方式，在学习过程和实际应用中满足硬约束条件，同时享有经典的收敛保证，我们在仿真环境中验证了我们方法的有效性，包括一个具有挑战性障碍避免问题的四旋翼无人机的安全控制，并证明其胜过现有的基准模型。

Mar, 2024

具有双重鲁棒性的安全强化学习

提出了一个系统的框架来统一安全强化学习和鲁棒强化学习的问题，包括问题的形式化、迭代方案、收敛性分析和实际算法设计。该框架建立在有约束的两人零和马尔可夫博弈上，提出了一种双重策略迭代方案，同时优化任务策略和安全策略。证明了该迭代方案的收敛性。此外，还设计了一种用于实际实现的深度强化学习算法，称为 DRAC。安全关键的基准评估表明，DRAC 在所有情景下（无对手、安全对手、性能对手）实现了高性能和持续的安全性，并且明显优于所有基准线。

Sep, 2023

学习保证安全：带安全评论家的深度强化学习

为了将 RL 算法部署到实际场景中并在学习过程中确保安全性，我们提出了使用转移学习方法学习在一个任务环境中如何保持安全性，然后将所学用于约束在学习新任务时的行为，此方法在三个具有挑战性的领域中实证，相比于标准的深度 RL 技术和以前的安全 RL 方法，我们的方法不但减少了安全事故，还提高了学习的速度和稳定性。

Oct, 2020

安全深度强化学习的概率保证

本文提出了 MOSAIC 算法，通过概率模型检查深度强化学习代理在随机环境中的安全性，为控制器的执行构建正式抽象，并产生有限时间范围内安全行为的概率性保证，本研究在多个基准控制问题的代理进行了实施和评估。

May, 2020

可达性约束强化学习

本文提出了基于可达性分析的 RCRL 方法来解决 CRL 中的安全约束问题，并利用可达性分析来建立新的自洽性条件以及特征化可行集。在多个基准测试中，RCRL 方法展现了优于 CRL 和安全控制基准的可行集、策略绩效和约束满足性。

May, 2022

带有逻辑约束的谨慎强化学习

本文介绍了自适应安全填充的概念以及如何在学习过程中确保安全性，该方法利用强化学习合成最优控制策略来满足固定的目标逻辑公式，有效平衡探索效率和安全性，并提供了理论最优性和学习算法收敛的保证，实验结果表明了该方法的良好性能。

Feb, 2020

强化学习中的保护进展：用于控制策略合成的安全贝叶斯探索

这篇论文研究了在强化学习过程中如何保证训练的安全性，通过提出一种新的架构处理效率和安全性之间的权衡，并利用贝叶斯推理和马尔可夫决策过程来近似风险，并通过实验结果展示了整体架构的性能。

Dec, 2023