具备相关性图的深度多智能体强化学习

NIPSNov, 2018

具备相关性图的深度多智能体强化学习

Deep Multi-Agent Reinforcement Learning with Relevance Graphs

Aleksandra Malysheva, Tegg Taekyong Sung, Chae-Bong Sohn, Daniel Kudenko, Aleksei Shpilman

TL;DR本文提出了一种新的多智能体强化学习方法 MAGnet，将深度强化学习、自我关注机制、神经网络结构等技术应用于 Pommerman 游戏，实验结果表明，MAGnet 在该游戏中显著优于现有的 MARL 解决方案，如 DQN，MADDPG 和 MCTS 等。

Abstract

Over recent years, deep reinforcement learning has shown strong successes in complex single-agent tasks, and more recently this approach has also been applied to multi-agent domains. In this paper, we propose a novel approach, called MAGnet, to →

deep reinforcement learning multi-agent reinforcement learning self-attention mechanism message-generation technique pommerman game

发现论文，激发创造

MAGNet：深度多智能体强化学习的多智能体图网络

本文介绍了一种新的多智能体强化学习方法，称为 MAGNet，利用自我关注机制和消息生成技术对环境进行了相关图表示，应用于合成捕食者 - 猎物多智能体环境和 Pommerman 游戏，结果表明它在性能上显著优于其他最先进的多智能体强化学习解决方案。

Dec, 2020

基于图形的多智能体强化学习的协同信息传播学习

利用多智能体强化学习的分散式 POMDP 方法，通过图卷积强化学习和动态注意力技术实现信息传播，提供了可靠的协作信息传播解决方案。

Aug, 2023

多智能体强化学习中的递归推理图

采用递归推理模型和中央训练 - 分散执行框架的多智能体强化学习算法，能够帮助学习代理更好地合作或竞争，取得了多个多智能体粒子和机器人游戏中的最佳性能。

Mar, 2022

基于超图神经网络的多智能体系统高效策略生成

本文介绍了一种基于邻域的多智能体强化学习算法，并提出了两种基于超图结构的变体方法，其中利用超图卷积网络实现了信息提取和表示学习，具有实现有效合作的显著优势。

Mar, 2022

网络代理的去中心化多智能体强化学习：最新进展

本文回顾了多智能体强化学习的一个分支领域 —— 网络化智能体下的去中心化多智能体强化学习。该领域的研究主要集中在多个代理在公共环境中执行顺序决策，而无需任何中央控制器的协调。代理可以通过通信网络与其邻居交换信息。此设置在机器人，无人驾驶车辆，移动传感器网络和智能电网的控制和操作中具有广泛应用。

Dec, 2019

基于图注意力的部分可观察性均值场多智能体强化学习

本研究提出了一种使用图形注意力机制的新型多智能体强化学习算法（Partially Observable Mean Field Multi-Agent Reinforcement Learning based on Graph-Attention），以更有效地捕获邻居智能体的特征信息，以选择更有效的行动，该算法在 MAgents 框架上的三个挑战任务中优于最先进的部分可观测平均场强化学习算法的基线。

Apr, 2023

多智能体强化学习的统一博弈论方法

本文提出了一种基于深度强化学习的近似最佳响应策略混合和实证博弈理论分析的算法，用以解决多智能体强化学习中独立强化学习过度拟合其他智能体政策的问题，并且在网格世界协调游戏和扑克牌等部分可观察环境中取得了不错的结果.

Nov, 2017

在有向无环图约束下学习多个协同代理

本文提出了一种新的多智能体强化学习方法，旨在学习在有向无环图 (DAG) 约束条件下的多个协调智能体。我们的方法利用智能体之间的 DAG 结构，有效提高学习性能，并通过提出一种基于合成奖励的 MARL 模型的新型替代值函数来证明其作为最优值函数的下限。计算上，我们提出了一种实用的训练算法，利用新的领导智能体和奖励生成器 / 分配智能体引导分解的从属智能体更好地探索具有 DAG 约束的环境的参数空间。实证上，我们利用了四个 DAG 环境，包括英特尔高容量封装和测试工厂的真实排程，对我们的方法进行基准测试，证明其优于其他非 DAG 方法。

Jul, 2023

用于部分可观察环境和有限通信的 R-MADDPG

本文介绍了一种使用深度循环多智能体演员 - 评论家框架（R-MADDPG）处理部分可观测设置和有限通信下多智能体协调的方法，并探究了循环效应对团队智能体表现和通信使用的影响。研究结果表明，该框架可以学习随时间变化的依赖关系，处理资源限制，并在智能体之间开发不同的通信模式。

Feb, 2020

野火管理资源分配的图神经网络通信层协作自适应多智能体强化学习

提出一种基于多智能体强化学习和图神经网络通讯层的方法，在火灾管理资源分配中，通过通信环境特征和部分可见火灾，实现协作分配资源，优于贪心启发式基线和单智能体设置，并展示了自动课程和开放性对其泛化能力的改善。

Apr, 2022