基于障碍函数的端到端安全强化学习在安全关键型连续控制任务中的应用

AAAIMar, 2019

基于障碍函数的端到端安全强化学习在安全关键型连续控制任务中的应用

End-to-End Safe Reinforcement Learning through Barrier Functions for Safety-Critical Continuous Control Tasks

Richard Cheng, Gabor Orosz, Richard M. Murray, Joel W. Burdick

TL;DR本文提出了一种控制器架构，该架构将模型自由的强化学习控制器与利用控制屏障函数和未知系统动态的模型控制器相结合，以确保学习过程中的安全，并利用高斯过程对系统动态进行建模和不确定性分析。

Abstract

reinforcement learning (RL) algorithms have found limited success beyond simulated applications, and one main reason is the absence of safety guarantees during the learning process. Real world systems would reali

reinforcement learning safety guarantees model-based controllers control barrier functions unknown system dynamics

发现论文，激发创造

使用控制李雅普诺夫障碍函数进行安全机器人控制的强化学习

本文研究使用控制李亚普诺夫壁函数（CLBF）来分析安全性和可达性，使用 Lyapunov 壁演员 - 评论家（LBAC）算法进行数据驱动寻找控制器，以实现无模型的强化学习在机器人控制中的广泛应用。在模拟实验和真实机器人控制实验中，实验结果显示了该方法在可达性和安全性方面的优异表现。

May, 2023

从专家演示中学习控制屏障函数

本文提出一种基于学习的方法来合成安全控制器，该方法基于控制屏障函数，考虑非线性控制仿射动力系统的情况，并假设我们可以访问由专家生成的安全轨迹，在此基础上，提出和分析了基于优化的 CBF 学习方法，其具有可证明的安全保证。

Apr, 2020

基于强化学习的自适应控制屏障函数的滑动时限控制在安全关键系统中的应用

通过使用基于控制障碍函数的强化学习（RL）的递进式规划控制（RHC）方法，我们提出了一种用于解决安全关键问题的最优控制方法，以模型预测控制（MPC）和控制障碍函数（CBFs）为基础，通过优化参数和学习控制输入，有效提高了性能并显著减少了不可行案例的数量。

Mar, 2024

一种基于 Barrier-Lyapunov 的 Actor-Critic 强化学习方法，用于安全稳定控制

本文提出了一个基于控制栅函数 (control barrier function, CBF) 和控制李雅普诺夫函数 (control Lyapunov function, CLF) 方法的强化学习 (reinforcement learning, RL) 框架，称之为 Barrier-Lyapunov Actor-Critic (BLAC) 框架，它有助于维护系统的安全性和稳定性。本框架通过基于重放缓冲器中采样的数据构建安全性的控制障碍函数约束和稳定性的控制李雅普诺夫函数约束，并使用增广拉格朗日方法来更新基于 RL 的控制器的参数。此外，本文还引入了一种备份控制器，以防安全和稳定性约束无法同时满足时 RL 控制器不能提供有效的控制信号。仿真结果证明，相对于基线算法，该框架产生的控制器可以帮助系统接近期望状态，并导致更少的安全约束违反。

Apr, 2023

具有控制障碍函数的安全关键控制学习

利用控制屏障函数的机器学习框架可以降低非线性控制系统中的模型不确定性，从而实现系统的安全行为。通过在 Segway 平台上进行模拟和实验验证，这种方法可以持续收集数据并更新控制器，最终实现安全行为。

Dec, 2019

使用控制李雅普诺夫函数和控制阻碍函数的模型不确定性下安全关键控制的强化学习

本文提出了一种基于强化学习框架的方法，利用 CBF、CLF 等约束条件中存在的模型不确定性，并结合标称模型的 CBF-CLF-QP，得到了强化学习驱动的 CBF-CLF-QP，有效解决了安全约束中的模型不确定性问题。实验证明，在一个脚踩随机分布台石的非完全驱动非线性双足机器人上，此方法保证了机器人的安全和稳定行走。

Apr, 2020

多智能体系统的自适应安全学习

多智能体系统中，通过控制屏障函数自适应安全学习的实证研究表明 ASRL 方法可以提高安全性和长期性能，并在多机器人系统和竞争性多智能体赛车环境中展示了其灵活性和可扩展性。

Sep, 2023

基于控制壁函数的安全反向强化学习

本文提出了一个名为 CBFIRL 的安全 IRL 框架，利用控制屏障函数（CBF）增强 IRL 策略的安全性，通过梯度下降联合优化 CBF 要求灵感的损失函数和 IRL 方法的目标，在实验中表明我们的框架相较于没有 CBF 的 IRL 方法更加安全，并展示了在 2D 赛车领域的两个难度级别和 3D 无人机领域的安全性提高了 15% 和 20% 和 50%。

Dec, 2022

学习面向性能的控制屏障函数在复杂安全约束和有限执行中的应用

本研究提出了一种新颖的自监督学习框架，通过建立一个连续可微函数和平滑神经网络来参数化 Control Barrier Functions (CBF) 的候选项，然后设计一个基于 Hamilton-Jacobi 偏微分方程的训练损失函数来训练 CBF，从而同时增大感应控制不变集的体积，并通过数值实验证明了我们方法的有效性。

Jan, 2024

学习混合系统安全控制的本地控制阻碍函数

本文提出一种基于学习的方法，通过构建基于神经网络的 Control Barrier Functions (CBFs) 来确保广泛类别的非线性混合动力系统的安全，从而解决现有方法的计算效率低、对系统性能不利或仅适用于小规模系统的问题。

Jan, 2024