控制不变集增强型安全强化学习：提高采样效率，保证稳定性和鲁棒性

May, 2023

控制不变集增强型安全强化学习：提高采样效率，保证稳定性和鲁棒性

Control invariant set enhanced safe reinforcement learning: improved sampling efficiency, guaranteed stability and robustness

PDF

Song Bo, Bernard T. Agyeman, Xunyuan Yin, Jinfeng Liu

TL;DR本文提出了一种新颖的 RL 训练方法，控制不变集增强 RL，以提高样本效率和稳定性保证，通过 CIS 在奖励设计、初始状态采样和状态重置程序中实现，同时加入安全监管人员以保证稳定性，研究结果表明这种方法在离线训练中能够显著提高样本效率，在在线实现中能够保证闭环稳定性。

Abstract

reinforcement learning (RL) is an area of significant research interest, and safe rl in particular is attracting attention due to its ability to handle safety-driven constraints that are crucial for real-world ap

reinforcement learning safe rl control invariant set sampling efficiency closed-loop stability

发现论文，激发创造

基于控制不变集增强型强化学习的过程控制：提高采样效率和保证稳定性

本文提出了一种新的强化学习培训方法，称为控制不变集（CIS）增强 RL，该方法通过控制不变集的优势改善稳定性和采样效率，其中包括离线和在线的两个学习阶段，使用 CIS 来设计奖励、采样初始状态和状态重置程序，并在状态不在 CIS 时重新训练 RL，以确保在线稳定；在模拟化学反应器中进行应用，结果表明，在离线训练期间，采样效率显著提高，并且实现了闭环稳定性。

Apr, 2023

针对对抗性干扰的坚固安全强化学习

该论文提出了一种鲁棒安全强化学习框架，解决了在真实控制任务中应用强化学习时外部干扰的安全性问题，该框架通过建立鲁棒不变集合来保证安全，并采用约束强化学习算法进行策略优化。

Oct, 2023

具有稳定性保证的安全基于模型的强化学习

该论文提出了一种考虑安全性的学习算法，利用 Lyapunov 稳定性检验的控制理论结果和动力学统计模型，得到具备可证明稳定性证书的高性能控制策略，并通过高斯过程先验进一步保证数据安全性和提高控制性能。在反演摆模拟实验中表现出安全性高、控制性能良好的特点。

May, 2017

可达性约束强化学习

本文提出了基于可达性分析的 RCRL 方法来解决 CRL 中的安全约束问题，并利用可达性分析来建立新的自洽性条件以及特征化可行集。在多个基准测试中，RCRL 方法展现了优于 CRL 和安全控制基准的可行集、策略绩效和约束满足性。

May, 2022

基于置信度过滤器的安全强化学习

在强化学习应用于现实系统时，确保安全是一个关键的挑战。因此，我们通过概率动力学模型提供一种基于控制理论的置信度安全过滤器方法，用于认证通过标准强化学习技术学习的名义策略的状态安全约束条件，将安全验证降低到标准强化学习任务。利用幻想输入的概念，我们将这种方法扩展到确定对未知系统具有高概率安全的 “备份” 策略。最后，在朝向备份策略的滚动过程中，每个时间步骤最小调整名义策略，以保证安全恢复。我们提供了正式的安全保证，并在实验中证明了我们方法的有效性。

Jul, 2022

安全强化学习的一致性可行性表征学习

在安全强化学习领域，通过结合表示学习和可行性导向目标，我们引入了一种名为 Feasibility Consistent Safe Reinforcement Learning（FCSRL）的新框架，以从原始状态中提取与安全相关的信息从而增强策略学习和约束估计。在多种向量状态和基于图像的任务的实证评估中，我们的方法能够学习到更好的安全感知嵌入并取得优越的性能，超过了先前的表示学习基线。

May, 2024

通过鲁棒不变集的分解学习预测性安全过滤器

提出了一个理论框架，通过捕捉非线性系统中的状态和动作相关的不确定性，综合应用稳健模型预测控制（RMPC）和强化学习（RL），以合成非线性系统的安全过滤器，其计算复杂度较低且具有持久的鲁棒安全保证。

Nov, 2023

基于采样的安全强化学习在非线性动力系统中的应用

我们开发了一种可证明安全和收敛的非线性动态系统控制的强化学习算法，填补了控制理论的强安全性保证和强化学习理论的收敛保证之间的差距。我们的方法通过单阶段的基于采样的方式，在学习过程和实际应用中满足硬约束条件，同时享有经典的收敛保证，我们在仿真环境中验证了我们方法的有效性，包括一个具有挑战性障碍避免问题的四旋翼无人机的安全控制，并证明其胜过现有的基准模型。

Mar, 2024

基于已知约束函数的多能源管理系统安全强化学习

本文提出了两种新的安全强化学习方法，即 SafeFallback 和 GiveSafe，其安全约束公式与 RL 公式分离，可提供硬约束满足保证，且无需解决数学问题，从而降低计算能力要求，并具有更灵活的约束公式表述。方法可应用于超出 RL 的任何策略，同时提供硬约束保证，并在模拟多能源系统案例研究中验证了方法的有效性。

Jul, 2022

学习的非马尔可夫安全性约束下的安全强化学习

在安全强化学习中，我们设计了一个安全模型来评估部分状态 - 动作轨迹对安全性的贡献，并使用 RL-as-inference 策略推导出了一种有效的优化安全策略的算法，最后，我们提出了一种动态调整奖励最大化与安全合规性权衡系数的方法，实证结果表明这种方法规模可扩展且能满足复杂的非 Markov 安全约束。

May, 2024