使用广义行动控制器进行安全控制和学习

Nov, 2022

使用广义行动控制器进行安全控制和学习

Safe Control and Learning Using Generalized Action Governor

Nan Li, Yutong Li, Ilya Kolmanovsky, Anouck Girard, H. Eric Tseng...

TL;DR本文介绍了一种名为广义动作管制器的监督方案，该方案可以为惯性闭环系统提供强制性处理约束的能力。在介绍其理论为一般系统和为线性和离散系统提供的定制设计方法后，我们讨论了其在安全在线学习中的应用，即旨在使用实时数据安全地演变控制参数以改进不确定系统的性能。特别地，我们提出了两个安全学习算法，这些算法基于增强学习/数据驱动Koopman运算符控制与广义动作管制器的集成。发展成果可以通过数字实例来说明。

Abstract

This paper introduces the generalized action governor, which is a supervisory scheme for augmenting a nominal closed-loop system with the capability of strictly handling →

发现论文，激发创造

强化学习中状态和动作空间的安全探索

本篇论文针对强化学习中的安全探索这一问题，提出 PI-SRL 算法在解决复杂任务，包括汽车停车、极杆平衡、直升机悬停和商业管理等方面具有安全性和高效性的优秀表现。

Feb, 2014

连续动作空间中的安全探索

本文介绍了一种在物理系统（如数据中心冷却单元或机器人）中部署强化学习代理的方法，通过添加一层安全层，能够避免在学习过程中违反约束条件，并且通过在惯性路径上学习线性化模型解决了具有任意行动的问题。

Jan, 2018

基于学习的模型预测控制用于安全探索

本文提出了一种基于学习的模型预测控制方案，其可以提供可证明的高概率安全保证，并利用正态分布先验的规则性假设来构建可证明准确的置信区间，保证轨迹满足安全约束，通过终端集约束递归地保证每个迭代中存在安全控制动作。在实验中展现了该算法可以用来安全、高效地探索和学习动态系统。

Mar, 2018

机器人中的安全学习：从基于学习的控制到安全强化学习

本文综述了机器学习在实现安全决策方面的最新进展，并重点介绍了控制理论和强化学习研究中使用的语言和框架。文章讨论了学习控制方法、强化学习方法和可正式证明学习控制策略安全性的方法，并强调了在近距离与人类操作时安全性至关重要。此外，作者还强调了未来机器人学习研究中需要解决的一些挑战，以及促进控制和强化学习方法公平比较的基于物理的基准测试。

Aug, 2021

强化学习用于带有动作约束的任务规定

本文运用离散事件系统监控控制理论的概念，提出一种方法用于在有限状态的马尔可夫决策过程中，学习最优控制策略，并利用奖励机器的发展来处理状态限制。通过给定一个例子来阐明其应用性并在此设置中展示了仿真结果。

Jan, 2022

SABLAS: 黑箱动态系统安全控制学习

本文提出了一种新的方法，用于从黑盒动态系统中学习安全控制策略和屏障证书，无需精确的系统模型，并证明了安全证书在黑盒系统上成立。

Jan, 2022

针对非凸约束和安全强化学习的不确定分段仿射系统的鲁棒性动作控制

本文提出了一种可靠的控制方案(Robust Action Governor)，它结合了离散时间的分段仿射模型和非凸约束条件，以实现安全强化学习过程的全时约束满足和控制策略的实时演化。研究结果表明，该方法在控制和安全方面都具有很好的效果。

Jul, 2022

初始化未知模型和不可行安全证书下的安全在线动态学习

通常，学习和控制过程中利用约束安全证书的技术被用于保证安全性，但是过高的模型不确定性可能使得鲁棒安全认证方法变得不可行。本文考虑了基于控制屏障函数（CBF）二阶锥规划的具有鲁棒安全证书的学习环境，在该环境下，如果控制屏障函数证书是可行的，我们的方法将利用它来保证安全性。否则，我们的方法通过探索系统动力学来收集数据，恢复控制屏障函数约束的可行性。我们采用了一种受贝叶斯优化中成熟工具启发的方法。我们证明，如果采样频率足够高，我们可以恢复鲁棒CBF证书的可行性，从而保证安全性。我们的方法不需要先验模型，据我们所知，这是第一个在存在偶尔不可行安全证书的情况下无需备份非学习型控制器即可保证安全的算法。

Nov, 2023

基于采样的安全强化学习在非线性动力系统中的应用

我们开发了一种可证明安全和收敛的非线性动态系统控制的强化学习算法，填补了控制理论的强安全性保证和强化学习理论的收敛保证之间的差距。我们的方法通过单阶段的基于采样的方式，在学习过程和实际应用中满足硬约束条件，同时享有经典的收敛保证，我们在仿真环境中验证了我们方法的有效性，包括一个具有挑战性障碍避免问题的四旋翼无人机的安全控制，并证明其胜过现有的基准模型。

Mar, 2024

学习的非马尔可夫安全性约束下的安全强化学习

在安全强化学习中，我们设计了一个安全模型来评估部分状态-动作轨迹对安全性的贡献，并使用RL-as-inference策略推导出了一种有效的优化安全策略的算法，最后，我们提出了一种动态调整奖励最大化与安全合规性权衡系数的方法，实证结果表明这种方法规模可扩展且能满足复杂的非Markov安全约束。

May, 2024