离线多智能体强化学习与安全约束的扩散模型

Jun, 2024

离线多智能体强化学习与安全约束的扩散模型

Diffusion Models for Offline Multi-agent Reinforcement Learning with Safety Constraints

Jianuo Huang

TL;DR最近在多智能体强化学习（MARL）的进展中，其应用已扩展到各种安全关键场景。然而，大多数方法专注于在线学习，在实际环境中部署时存在重大风险。为了解决这一挑战，我们引入了一个创新的框架，将扩散模型与 MARL 范式相结合。通过风险缓解来增强多智能体采取的动作的安全性，并建模协同行动。我们的框架基于分散执行（CTDE）架构中的集中式训练，扩展了用于预测轨迹生成的扩散模型。此外，我们还结合了一种专门的算法来确保操作安全性。我们在 DSRL 基准测试上评估了我们的模型，并进行了对比实验。实验结果表明，我们的模型不仅符合严格的安全约束，而且在性能上优于现有的方法。这凸显了我们的方法在推动 MARL 在实际应用中的安全性和效能方面的潜力。

Abstract

In recent advancements in multi-agent reinforcement learning (MARL), its application has extended to various safety-critical scenarios. However, most methods focus on online learning, which presents substantial r

multi-agent reinforcement learning safety-critical scenarios diffusion models centralized training with decentralized execution dsrl benchmark

发现论文，激发创造

数字孪生的保守和风险意识离线多智能体强化学习

提出了一种适用于基于数字孪生的无线网络的离线多智能体保守分位回归 (MA-CQR) 方案，通过集成分布式强化学习和保守 Q 学习来解决环境的内在的随机性不确定性和数据有限性导致的认识不确定性。在无人机网络中应用该方案，展示了其对轨迹规划问题的优势。

Feb, 2024

深入学习的安全多智能体强化学习中的模型预测控制

基于深度学习的模型预测控制方法被提出，以解决安全多智能体强化学习中存在的复杂多智能体环境动力学问题，该方法在解决多智能体系统的安全问题方面取得了显著进展。

Mar, 2024

基于模型的动态屏蔽技术，用于安全高效的多智能体强化学习

该论文提出了一种基于模型的动态屏蔽（MBDS）方法来支持多智能体强化学习算法设计，同时在强化学习和部署阶段实现形式化安全性保证。该算法合成分布式屏蔽，可以在与每个 MARL 代理并行运行的情况下监视和纠正不安全行为，从而实现对多智能体复杂环境的有效监控，并具有强有力的安全性保证。

Apr, 2023

离线多智能体强化学习中的扩散政策与保守性之外

本文提出了一种基于扩散的离线多智能体模型（DOM2），采用轨迹数据增广方案，可以应对环境变化，达到更好的性能、泛化能力和数据效率。实验结果表明，DOM2 在多智能体环境中和 shifted environments 下都比现有算法表现更好，并拥有更强的数据效率。

Jul, 2023

具有控制理论安全保证的动态网络桥接的多智能体强化学习

通过整合多智能体增强学习和控制理论方法，本文提出了一种混合方法来解决安全关键环境中的复杂合作任务，包括一个新颖的设定更新算法以动态调整智能体位置以保持安全条件而不影响任务目标。实验证明相比传统的多智能体增强学习策略，该方法在任务性能和安全违规方面取得了显著优势。研究结果表明，将安全控制与学习方法相结合不仅增强了安全合规性，还实现了良好的任务目标性能。

Apr, 2024

可伸缩的多智能体模型基强化学习

本文提出了一种名为 MAMBA 的新方法，通过利用基于模型的强化学习（MBRL）进一步利用合作环境中的集中式训练，从而使代理之间的通信足以在执行阶段维持每个代理的世界模型，而虚拟推演可用于培训，从而通过减少与环境的互动次数，以与 Model-Free 的现有方法相比，在 SMAC 和 Flatland 的具有挑战性的领域中实现良好的性能。

May, 2022

均场多智体强化学习：一种分散网络方法

提出了基于 LTDE-Neural-AC 和演员 - 评论家方法的多智能体强化学习算法，应用于自驾车、拼车、数据和交通路由模型的图网络，其解决了分散式多智能体强化学习网络结构的问题，并具有收敛保证的优势。

Aug, 2021

协作多智能体强化学习的高效分布式框架

本研究提出了一种基于 actor-work-learner 架构的分布式 MARL 框架，在 MaCA 军事模拟环境和 SMAC 3D 实时战略游戏环境中验证了其在多智能体强化学习性能提升方面的有效性。

May, 2022

机器人团队的分布式强化学习：回顾

本文总结了分布式无模型多智能体强化学习在多机器人协作中面临的挑战以及现有的解决方案类别，并介绍了基准测试和机器人应用，同时讨论了当前的研究方向。

Apr, 2022

具有空间 - 时间感知能力的安全多智能体强化学习：应对复杂场景下的联网自动驾驶车辆

本文提出了一种使用多智能体强化学习框架 (MARL) 的安全保护平行体系结构来提高连接和自主车辆 (CAV) 系统在复杂驾驶情况下的安全性和效率，并使用 Graph Convolutional Network (GCN)-Transformer 作为空间 - 时间编码器，设立安全屏障并对 CAV 进行安全检查，实验结果显示该方法大大提高了系统安全性和效率。

Oct, 2022