野火管理资源分配的图神经网络通信层协作自适应多智能体强化学习

ICLRApr, 2022

野火管理资源分配的图神经网络通信层协作自适应多智能体强化学习

Collaborative Auto-Curricula Multi-Agent Reinforcement Learning with Graph Neural Network Communication Layer for Open-ended Wildfire-Management Resource Distribution

PDF

Philipp Dominic Siedler

TL;DR提出一种基于多智能体强化学习和图神经网络通讯层的方法，在火灾管理资源分配中，通过通信环境特征和部分可见火灾，实现协作分配资源，优于贪心启发式基线和单智能体设置，并展示了自动课程和开放性对其泛化能力的改善。

Abstract

Most real-world domains can be formulated as multi-agent (MA) systems. Intentionality sharing agents can solve more complex tasks by collaborating, possibly in less time. True cooperative actions are beneficial for egoistic and collective reasons. However, teaching individual agents to sacrifice egoistic benefits for a better collective performance seems cha

multi-agent reinforcement learning graph neural network resource distribution wildfire management auto-curricula

发现论文，激发创造

自主机器人森林化的动态协同多智能体强化学习通信

本研究利用多智能体强化学习（MARL）的方法，结合使用自主无人机和图神经网络的通信机制，实现了高效率的森林植树方案，并且实验结果证实，与没有通信机制的多智能体方案相比，通过通信机制能够促进智能体间的合作，提高种植地区的准确性，增加植树数量，降低风险，表现出更好的效果。

Nov, 2022

基于图形的多智能体强化学习的协同信息传播学习

利用多智能体强化学习的分散式 POMDP 方法，通过图卷积强化学习和动态注意力技术实现信息传播，提供了可靠的协作信息传播解决方案。

Aug, 2023

具有新兴通讯的网络多智能体强化学习

本研究使用紧密联系的智能体通过互相交流离散符号彼此合作完成任务。通过分析他们之间的交流，证明了他们发展的语言与网络拓扑有关，并在交通控制器问题上实现了最先进的性能。

Apr, 2020

网络系统控制的多智能体强化学习

本文研究了网络系统控制中的多智能体强化学习问题，提出了基于空间折扣因子的 NMARL 问题并引入了一种可微的通信协议 NeurComm 以提高学习效率和控制性能。实验结果表明，合适的空间折扣因子可以有效提高 MARL 算法的非通讯性学习曲线，而 NeurComm 在学习效率和控制性能方面均优于现有的通信协议。

Apr, 2020

多智能体强化学习的群体感知协调图

我们提出了一种新的方法来推断组感知协作图（GACG），以捕捉基于当前观测到的代理之间的合作以及跨轨迹观察到的行为模式的组水平依赖关系，并在决策过程中使用该图进行信息交换。通过在 StarCraft II 微管理任务上进行评估，我们证明了 GACG 的卓越性能。进一步的消融研究为我们的方法的每个组成部分的有效性提供了实验证据。

Apr, 2024

在竞争性多智能体环境中学习沟通与协作，以清理大型塑料垃圾污染海洋

本文提出一种基于图神经网络的通信机制，用于多智能体强化学习 (MARL) 环境中的宏塑料收集。实验表明这种通信机制能够有效地提高多智能体的协作性能，同时保持良好的个体表现。

Apr, 2023

网络代理的去中心化多智能体强化学习：最新进展

本文回顾了多智能体强化学习的一个分支领域 —— 网络化智能体下的去中心化多智能体强化学习。该领域的研究主要集中在多个代理在公共环境中执行顺序决策，而无需任何中央控制器的协调。代理可以通过通信网络与其邻居交换信息。此设置在机器人，无人驾驶车辆，移动传感器网络和智能电网的控制和操作中具有广泛应用。

Dec, 2019

基于合作图的多智能体稀疏奖励强化学习方法

本文提出了一种基于 Cooperation Graph 结构的 Multiagent Reinforcement Learning（CG-MARL）算法，通过设计一个网络结构来有效处理多智能体领域中的稀疏奖励问题，并在实验中展示出全面领先的性能表现。

Aug, 2022

基于超图神经网络的多智能体系统高效策略生成

本文介绍了一种基于邻域的多智能体强化学习算法，并提出了两种基于超图结构的变体方法，其中利用超图卷积网络实现了信息提取和表示学习，具有实现有效合作的显著优势。

Mar, 2022

用于部分可观察环境和有限通信的 R-MADDPG

本文介绍了一种使用深度循环多智能体演员 - 评论家框架（R-MADDPG）处理部分可观测设置和有限通信下多智能体协调的方法，并探究了循环效应对团队智能体表现和通信使用的影响。研究结果表明，该框架可以学习随时间变化的依赖关系，处理资源限制，并在智能体之间开发不同的通信模式。

Feb, 2020