在有向无环图约束下学习多个协同代理

Jul, 2023

在有向无环图约束下学习多个协同代理

Learning Multiple Coordinated Agents under Directed Acyclic Graph Constraints

Jaeyeon Jang, Diego Klabjan, Han Liu, Nital S. Patel, Xiuqi Li...

TL;DR本文提出了一种新的多智能体强化学习方法，旨在学习在有向无环图 (DAG) 约束条件下的多个协调智能体。我们的方法利用智能体之间的 DAG 结构，有效提高学习性能，并通过提出一种基于合成奖励的 MARL 模型的新型替代值函数来证明其作为最优值函数的下限。计算上，我们提出了一种实用的训练算法，利用新的领导智能体和奖励生成器 / 分配智能体引导分解的从属智能体更好地探索具有 DAG 约束的环境的参数空间。实证上，我们利用了四个 DAG 环境，包括英特尔高容量封装和测试工厂的真实排程，对我们的方法进行基准测试，证明其优于其他非 DAG 方法。

Abstract

This paper proposes a novel multi-agent reinforcement learning (MARL) method to learn multiple coordinated agents under directed acyclic graph (DAG) constraints. Unlike existing MARL approaches, our method explic

multi-agent reinforcement learning directed acyclic graph surrogate value function leader agent dag environments

发现论文，激发创造

带有定向协调图的分布式合作多智能体强化学习

本文提出了一种分布式强化学习算法，该算法使用直接协调图和局部值函数，通过零阶优化方法进行条件估计，没有使用任何共识算法。与现有的基于零阶优化的强化学习算法相比，我们的算法保证了高可扩展性。

Jan, 2022

基于图诱导的局部价值函数的分布式多智能体强化学习

本文提出了一种可行的分布式学习框架来处理多智能体协作强化学习中的信任问题，这种方法使用图的结构描述不同类型的多智能体之间的关系，并提出了两种基于本地价值函数的分布式 Reinforcement Learning (RL) 方法，能够在保证有效性的前提下，大幅减少采样复杂性。

Feb, 2022

基于合作图的多智能体稀疏奖励强化学习方法

本文提出了一种基于 Cooperation Graph 结构的 Multiagent Reinforcement Learning（CG-MARL）算法，通过设计一个网络结构来有效处理多智能体领域中的稀疏奖励问题，并在实验中展示出全面领先的性能表现。

Aug, 2022

基于图形的多智能体强化学习的协同信息传播学习

利用多智能体强化学习的分散式 POMDP 方法，通过图卷积强化学习和动态注意力技术实现信息传播，提供了可靠的协作信息传播解决方案。

Aug, 2023

多智能体强化学习的群体感知协调图

我们提出了一种新的方法来推断组感知协作图（GACG），以捕捉基于当前观测到的代理之间的合作以及跨轨迹观察到的行为模式的组水平依赖关系，并在决策过程中使用该图进行信息交换。通过在 StarCraft II 微管理任务上进行评估，我们证明了 GACG 的卓越性能。进一步的消融研究为我们的方法的每个组成部分的有效性提供了实验证据。

Apr, 2024

有效多智能体 Q-Learning 的图探索

本文提出了一种基于图通信的多智能体强化学习探索技术，通过邻近智能体的协作来估计状态 - 动作空间的不确定性，从而在不需要计数机制且可以应用于连续状态环境的前提下执行更有效的探索行为，可以实现最小的信息交换和完全分散的通信方式，并用理论和实验结果分别验证了其在离散状态和连续状态下的性能。

Apr, 2023

多智能体强化学习的深层隐式协调图

本文引入了一种深度隐式协调图 (DICG) 结构，用于多智能体强化学习中的协调问题，通过一个协调图神经网络实现隐式推理，实现了完全中央化和分散化之间的平衡，并在多个基准测试任务中表现出色。

Jun, 2020

具有动态参与智能体的可转移的多智能体强化学习

本研究提出一种具有 Few-shot Learning 算法的网络架构，允许在集中式训练期间代理的数量变化，这可以使新代理的模型适应速度比基线模型快 100 多倍。

Aug, 2022

网络代理的去中心化多智能体强化学习：最新进展

本文回顾了多智能体强化学习的一个分支领域 —— 网络化智能体下的去中心化多智能体强化学习。该领域的研究主要集中在多个代理在公共环境中执行顺序决策，而无需任何中央控制器的协调。代理可以通过通信网络与其邻居交换信息。此设置在机器人，无人驾驶车辆，移动传感器网络和智能电网的控制和操作中具有广泛应用。

Dec, 2019

针对对手感知的去中心化网络多智能体强化学习算法

研究了去中心化的多智能体强化学习算法，引入了对抗性智能体对共识更新的漏洞，并提出了一种算法，使得非对抗性智能体在受限制的情况下达成共识。

May, 2023