具有图卷积通信的反事实多智体强化学习

Apr, 2020

具有图卷积通信的反事实多智体强化学习

Counterfactual Multi-Agent Reinforcement Learning with Graph Convolution Communication

Jianyu Su, Stephen Adams, Peter A. Beling

TL;DR该研究提出了一种基于图卷积和多因素策略梯度的架构，用于解决在多观察环境下多智能体之间合作最大化系统功用时的通信和奖励分配问题，并在一系列任务中取得了优异表现。

Abstract

We consider a fully cooperative multi-agent system where agents cooperate to maximize a system's utility in a partial-observable environment. We propose that multi-agent systems must have the ability to (1) communicate and understand the inter-plays between agents and (2) correctly dis

multi-agent system communication reward distribution graph convolution credit assignment

发现论文，激发创造

反事实多智能体策略梯度

通过提出一种新的多智能体演员 - 评论家方法，使用中心化评论家估算 Q 函数和分散化演员来优化智能体的策略，使用反事实基线来处理多智能体学分分配的挑战，该方法能够有效地学习到分散式问题的解决方案，并在星际争霸微操作测试环境中显著提高了绩效表现。

May, 2017

图卷积强化学习

本文提出了一种使用图卷积强化学习的方法，通过使用关系内核捕获代理之间的相互作用来适应多代理环境的动态，并利用逐渐增大感受野的卷积层产生潜在特征来学习合作，此外，为了保持一致性，还使用了时间关系正则化方法。实验表明，该方法在各种合作场景中显着优于现有方法。

Oct, 2018

从图模型视角学习多智能体通信

通过引入 CommFormer，将多个智能 Agent 之间的通讯架构视为可学习的图形，采用连续松弛和关注机制的方式，在协作任务上优化通讯图并通过梯度下降同时完善架构参数，证实了模型在不同合作场景下，无论 Agent 数量的变化，都能协调更好且更复杂的策略。

May, 2024

野火管理资源分配的图神经网络通信层协作自适应多智能体强化学习

提出一种基于多智能体强化学习和图神经网络通讯层的方法，在火灾管理资源分配中，通过通信环境特征和部分可见火灾，实现协作分配资源，优于贪心启发式基线和单智能体设置，并展示了自动课程和开放性对其泛化能力的改善。

Apr, 2022

分布式强化学习中通信高效的多智能体 Actor-Critic 算法

本文提出了一种基于随机化和多智能体系统 actor-critic 算法的分布式强化学习算法，旨在通过仅与本地邻居通信，协同优化全局平均回报。通过仅发送两个标量值变量，该算法可以解决强连通图的问题。

Jul, 2019

多智能体强化学习中的图卷积值分解

该论文提出了一种新颖的基于图神经网络的多智能体深度强化学习价值函数分解框架，包括目标团队代理作为一组完整有向图的节点、采用注意机制进行边权重控制、推出混合 GNN 模块用于把团队状态 - 动作价值函数分解为单独智能体的观测 - 动作价值函数、显式接受损失分配。该方法称为 GraphMIX，能够优于当前最先进方法，可用于 StarCraft II 多智能体挑战基准测试中，同时能够改善智能体性能并使其适应更高数量和 / 或操作的不匹配测试情景。

Oct, 2020

ACCNet: 深度多智能体强化学习中用于 “学习通讯” 的演员 - 协调器 - 评论家网络

本文通过提出 Actor-Coordinator-Critic Net (ACCNet) 框架，结合强化学习和深度学习技术，在多智能体环境下实现更好的学习通信协议能力，并对学习到的协议进行分析和设计探讨。

Jun, 2017

基于图形的多智能体强化学习的协同信息传播学习

利用多智能体强化学习的分散式 POMDP 方法，通过图卷积强化学习和动态注意力技术实现信息传播，提供了可靠的协作信息传播解决方案。

Aug, 2023

CM3：合作多目标多阶段多智能体强化学习

本文提出了一种名为 CM3 的结构，包括单个代理目标达成先于多个代理协作的学习过程和一种新的多目标多代理政策梯度，具有局部信任分配的信用功能。该结构在解决多个多目标多代理问题方面具有明显优势。

Sep, 2018

基于图注意力机制的多无人机辅助通信中轨迹规划和资源分配的强化学习

该论文提出了一种新的图注意多智能体信任域（GA-MATR）强化学习框架，用于解决多无人机辅助通信问题，通过引入图递归网络处理和分析通信网络的复杂拓扑结构，从观测信息中提取有用的信息和模式，提供额外的权重，并利用批评网络准确评估无人机基站行为的价值，以实现更可靠的反馈信号，并帮助演员网络更有效地更新策略。模拟实验表明，该方法具有优于基准线的收敛性能，无人机基站学习到了达到最大累积奖励的最佳通信策略，同时，多智能体信任域方法具有单调收敛性，为多无人机辅助通信马尔可夫博弈提供了估计的纳什均衡点。

Jan, 2024