分散式神經屏障證明的安全多智能體控制學習

ICLRJan, 2021

分散式神經屏障證明的安全多智能體控制學習

Learning Safe Multi-Agent Control with Decentralized Neural Barrier Certificates

Zengyi Qin, Kaiqing Zhang, Yuxiao Chen, Jingkai Chen, Chuchu Fan

TL;DR该研究提出了一种基于学习控制障碍函数作为安全证书实现的多智能体安全控制方法，该方法可以在分散式网络中进行联合学习，并且可以适应任意数量的智能体。在实验中，该方法显著优于其他主要的多智能体控制方法，并具有出色的泛化能力。

Abstract

We study the multi-agent safe control problem where agents should avoid collisions to static obstacles and collisions with each other while reaching their goals. Our core idea is to learn the multi-agent control policy jointly with learning the control barrier functions as

multi-agent control safety certificates decentralized learning neural network architectures policy refinement

发现论文，激发创造

安全控制策略的神经证书

本文提出一种方法，通过联合学习障碍函数和类李亚普诺夫函数的神经网络来实现动态系统的安全和目标控制，该方法在摆、小车倒立杆和无人机等动态系统中得到了有效应用。

Jun, 2020

SABLAS: 黑箱动态系统安全控制学习

本文提出了一种新的方法，用于从黑盒动态系统中学习安全控制策略和屏障证书，无需精确的系统模型，并证明了安全证书在黑盒系统上成立。

Jan, 2022

具有障碍认证的自适应强化学习及其在 Brushbot 导航中的应用

本文提出了一个安全学习框架，该框架采用自适应模型学习算法以及障碍证书，用于具有可能非平稳智能体动态的系统。本文使用稀疏优化技术提取模型的动态结构，并结合控制障碍证书来保持安全。在一定条件下，保证了违反安全性后的 Lypunov 稳定恢复。最终证明了该框架通过仿真和测试的方式，在具有未知、高度复杂和非平稳动态的机器人系统中是有效的。

Jan, 2018

具有控制理论安全保证的动态网络桥接的多智能体强化学习

通过整合多智能体增强学习和控制理论方法，本文提出了一种混合方法来解决安全关键环境中的复杂合作任务，包括一个新颖的设定更新算法以动态调整智能体位置以保持安全条件而不影响任务目标。实验证明相比传统的多智能体增强学习策略，该方法在任务性能和安全违规方面取得了显著优势。研究结果表明，将安全控制与学习方法相结合不仅增强了安全合规性，还实现了良好的任务目标性能。

Apr, 2024

通过动态责任分配实现去中心化多智能体系统风险感知安全控制

本文提出了一种基于风险感知的分散控制框架，使用控制阻碍函数 (CBF) 的风险测量来评估潜在碰撞面临的风险，动态分配各个单独代理应该承担的责任份额，从而提高集体安全。

May, 2023

通过学习深度逆动力学模型进行安全控制器的转移

通过将源系统的控制障碍证书与目标系统的逆动力学神经网络进行整合，我们提出了一种验证控制器正确性的新方法，并通过三个案例研究证明了其有效性。

May, 2024

通过陷阱区域实现多智能体学习的安全性保障

该研究提出了陷阱区域的概念来解决多智能体学习中的算法收敛性问题，在已知学习动态的系统中使用二分法算法验证，而在不知道学习动态的情况下则使用启发式抽样算法来划分安全集合，从而确保在学习过程中不会形成危险的联合策略组合。

Feb, 2023

应用 Lyapunov 障碍证书对深度强化学习控制器进行形式化验证

我们提出了一种新的方法来训练和验证基于 NLB 的证书，通过证书的序列设计和过滤来简化验证过程，并与神经网络验证引擎一起提供正式保证，以确保 DRL 代理实现其目标并避免不安全行为，通过在 DRL 控制的航天器上进行案例研究展示了该方法的优点。

May, 2024

通过神经障碍证明实现安全可达集的计算

在线安全验证自主系统的一项新技术，通过使用神经屏障证书有效地进行有界和无界时域的可达性分析，我们的方法使用由参数化神经网络给出的屏障证书，这些证书依赖于给定的初始集合，不安全集合和时间范围。

Apr, 2024

使用强健神经李亚普诺夫障函数的安全非线性控制

本文提出一种基于模型学习的方法，根据鲁棒凸优化和 Lyapunov 理论定义了鲁棒控制 Lyapunov 阻碍函数，以实现具有安全性和稳定性保证的控制器，并在诸如汽车轨迹跟踪、带障碍物避障的非线性控制、带安全性约束的卫星交会和具有学习地效果模型的飞行控制等问题上展示了其模拟结果，表明我们的方法降低了计算成本，并且得到的控制器的能力与稳健 MPC 技术相匹配或优于其能力。

Sep, 2021