通过陷阱区域实现多智能体学习的安全性保障

Feb, 2023

通过陷阱区域实现多智能体学习的安全性保障

Safety Guarantees in Multi-agent Learning via Trapping Regions

Aleksander Czechowski, Frans A. Oliehoek

TL;DR该研究提出了陷阱区域的概念来解决多智能体学习中的算法收敛性问题，在已知学习动态的系统中使用二分法算法验证，而在不知道学习动态的情况下则使用启发式抽样算法来划分安全集合，从而确保在学习过程中不会形成危险的联合策略组合。

Abstract

One of the main challenges of multi-agent learning lies in establishing convergence of the algorithms, as, in general, a collection of individual, self-serving agents is not guaranteed to converge with their join

multi-agent learning convergence trapping regions decentralized learning learning dynamics

发现论文，激发创造

分散式神經屏障證明的安全多智能體控制學習

该研究提出了一种基于学习控制障碍函数作为安全证书实现的多智能体安全控制方法，该方法可以在分散式网络中进行联合学习，并且可以适应任意数量的智能体。在实验中，该方法显著优于其他主要的多智能体控制方法，并具有出色的泛化能力。

Jan, 2021

多智能体信任域优化的博弈论方法

通过在策略空间中进行博弈论分析，MATRL 提出了一种用于多智能体学习的多智能体信赖域学习方法，该方法可在解决纳什均衡的元游戏级别上找到稳定的改进方向，并在离散和连续的多人游戏中明显优于基线。

Jun, 2021

基于高效信任区域的安全增强学习与低偏差分布演员 - 评论家

本文提出了一种基于信任区域方法的安全分布式强化学习方法，包括针对分布式评论家的估计偏差的降低，用 Q 函数表示的信任区域方法的新代理以及从不安全的初始代理找到满足所有约束的代理的梯度集成方法，实验表明，该方法表现出最小的约束违规，同时实现了高收益。

Jan, 2023

具有控制理论安全保证的动态网络桥接的多智能体强化学习

通过整合多智能体增强学习和控制理论方法，本文提出了一种混合方法来解决安全关键环境中的复杂合作任务，包括一个新颖的设定更新算法以动态调整智能体位置以保持安全条件而不影响任务目标。实验证明相比传统的多智能体增强学习策略，该方法在任务性能和安全违规方面取得了显著优势。研究结果表明，将安全控制与学习方法相结合不仅增强了安全合规性，还实现了良好的任务目标性能。

Apr, 2024

具有稳定性保证的安全基于模型的强化学习

该论文提出了一种考虑安全性的学习算法，利用 Lyapunov 稳定性检验的控制理论结果和动力学统计模型，得到具备可证明稳定性证书的高性能控制策略，并通过高斯过程先验进一步保证数据安全性和提高控制性能。在反演摆模拟实验中表现出安全性高、控制性能良好的特点。

May, 2017

安全控制策略的神经证书

本文提出一种方法，通过联合学习障碍函数和类李亚普诺夫函数的神经网络来实现动态系统的安全和目标控制，该方法在摆、小车倒立杆和无人机等动态系统中得到了有效应用。

Jun, 2020

具有未知时间约束的安全强化学习策略联合学习

提出了一种结合逻辑约束强化学习算法和进化算法的框架，用于在不确定或未明确定义安全约束的环境中并发地学习安全约束和最优 RL 策略，并且该框架以理论保证为支撑，成功地在 grid-world 环境中识别出可接受的安全约束和 RL 策略，以及证明了我们的方法的实践效果。

Apr, 2023

众多战略代理系统中的分散式学习

我们提出了一种计算多智能体系统中闭环最优策略的方法，并证明了在拥有无限个智能体的系统中成功收敛到最优行为，而且我们的方法具有完全分散的特性，能够在经济和控制理论中的实际应用中收敛到纳什均衡策略。

Mar, 2018

Lyapunov 神经网络：自适应稳定性认证用于动态系统的安全学习

本文提出了一种基于神经网络构建 Lyapunov 函数并通过训练算法将其适应到状态空间中最大安全区域形状的方法，以学习非线性闭环动力系统的准确安全证明，并在模拟倒立摆中演示了该方法的应用，讨论了如何将该方法与动态系统的统计模型一起用于安全学习算法。

Aug, 2018

受限马尔可夫决策过程中安全的强化学习

该研究提出了一种名为 SNO-MDP 的算法，它可以在未知安全约束条件下探索和优化马尔可夫决策过程，通过扩展安全区域来学习安全约束条件，进而在已认证的安全区域内优化累积奖励。通过两个实验展示了该算法的有效性。

Aug, 2020