通过鲁棒不变集的分解学习预测性安全过滤器

Nov, 2023

通过鲁棒不变集的分解学习预测性安全过滤器

Learning Predictive Safety Filter via Decomposition of Robust Invariant Set

Zeyang Li, Chuxiong Hu, Weiye Zhao, Changliu Liu

TL;DR提出了一个理论框架，通过捕捉非线性系统中的状态和动作相关的不确定性，综合应用稳健模型预测控制（RMPC）和强化学习（RL），以合成非线性系统的安全过滤器，其计算复杂度较低且具有持久的鲁棒安全保证。

Abstract

Ensuring safety of nonlinear systems under model uncertainty and external disturbances is crucial, especially for real-world control tasks. Predictive methods such as →

nonlinear systems model uncertainty external disturbances robust model predictive control reinforcement learning

发现论文，激发创造

基于置信度过滤器的安全强化学习

在强化学习应用于现实系统时，确保安全是一个关键的挑战。因此，我们通过概率动力学模型提供一种基于控制理论的置信度安全过滤器方法，用于认证通过标准强化学习技术学习的名义策略的状态安全约束条件，将安全验证降低到标准强化学习任务。利用幻想输入的概念，我们将这种方法扩展到确定对未知系统具有高概率安全的 “备份” 策略。最后，在朝向备份策略的滚动过程中，每个时间步骤最小调整名义策略，以保证安全恢复。我们提供了正式的安全保证，并在实验中证明了我们方法的有效性。

Jul, 2022

安全海洋导航的模块化控制架构：强化学习和预测性安全过滤器

自主系统安全性挑战，预测性安全过滤器在航海导航中与强化学习结合，保证了安全性，同时提高了学习速率和性能。

Dec, 2023

基于采样的安全强化学习在非线性动力系统中的应用

我们开发了一种可证明安全和收敛的非线性动态系统控制的强化学习算法，填补了控制理论的强安全性保证和强化学习理论的收敛保证之间的差距。我们的方法通过单阶段的基于采样的方式，在学习过程和实际应用中满足硬约束条件，同时享有经典的收敛保证，我们在仿真环境中验证了我们方法的有效性，包括一个具有挑战性障碍避免问题的四旋翼无人机的安全控制，并证明其胜过现有的基准模型。

Mar, 2024

受限马尔科夫决策过程中的安全策略改进

该研究提出了一种解决增强学习自动合成策略的算法，该算法通过解决奖励形状设计和安全策略更新等挑战来实现，同时使用基于模型的 RL 算法来有效地利用我们收集的数据，并在标准控制基准中展示了其有效性和鲁棒性。

Oct, 2022

使用鲁棒性模型预测控制的安全强化学习

本文提出了一种将强化学习与模型预测控制相结合的方法，以充分利用两者的优势，并获得既具有最优性又安全的控制器。在模拟中，我们通过数值实验证明了该方法的有效性。

Jun, 2019

基于凸优化的神经网络系统安全滤波器设计

通过利用神经网络、凸优化和鲁棒线性模型预测控制，本研究提出了一种新的安全过滤器，以确保神经网络系统在受到建模误差的加性干扰时能保持安全，并通过在非线性摆动系统上的数值实验证明了其有效性。

Aug, 2023

张量再生核希尔伯特空间中的安全强化学习

本文探讨了在部分可观察环境下的安全强化学习问题，旨在实现安全可达性目标。通过提出一种基于随机模型的方法，在面对未知系统动态和部分观测环境时，几乎确定地保证了强化学习的安全性。利用预测状态表示和再生核希尔伯特空间，对未来的多步观测进行了解析表示，并通过核贝叶斯规则导出了关键操作，可以使用不同的操作递归估计未来的观测。在假设观测和动作空间无限大的情况下，为强化学习算法建立了多项式样本复杂度，确保了 ε- 次优安全策略保证。

Dec, 2023

一种基于李亚普诺夫函数的安全强化学习方法

提出了一种基于 Lyapunov 方法的安全强化学习算法，该算法可在保证行为策略安全的前提下，有效地平衡约束满足和性能优化。

May, 2018

马尔科夫决策过程的安全约束强化学习

该论文研究了针对随机和部分未知环境下控制器综合的相关问题，并提出了一种基于安全的 Markov 决策过程的解决方案，并利用迭代学习过程来实现安全性和最优性的权衡。

Oct, 2015

对比风险预测下的安全强化学习

提出一种针对强化学习任务的风险预防训练方法，基于统计对比分类器，以预测状态 - 动作对导致不安全状态的概率，并且通过收集风险预防轨迹和重塑奖励函数，来引导安全强化学习策略。在机器人仿真环境中进行实验，结果表明该方法与现有的模型模式方法的表现相当，且优于传统的模型自由的安全强化学习方法。

Sep, 2022