基于注意力动态图的复杂协调模型
本文介绍了用于协作式多智能体强化学习的深度协调图(DCG)。DCG 通过协调图将所有智能体的联合价值函数因子化为智能体对之间的收益,从而在表征能力和泛化能力之间取得了灵活的折衷,解决了多智能体系统面临的相对过度泛化问题,在 StarCraft II 的微观管理任务中取得了显著的效果。
Sep, 2019
本文提出了一种基于图的异常检测框架 DyGATAD,利用注意机制构建多变量时间序列的连续图表示,并推断时间序列之间的动态边。DyGATAD 结合了基于操作条件感知的重构和基于拓扑的异常评分,从而增强了对关系变化的检测能力,在传感器网络中展示了卓越的集体异常检测性能,尤其在最小严重度故障的早期检测方面表现出特殊优势。
Jul, 2023
该研究针对大规模多智能体系统,建立一种基于完全图的游戏抽象机制,以简化学习过程,并通过交通路口和猎物 - 捕食者两种实验验证其在状态空间和收敛性能上的优势。
Nov, 2019
该论文提出了一种新颖的基于图神经网络的多智能体深度强化学习价值函数分解框架,包括目标团队代理作为一组完整有向图的节点、采用注意机制进行边权重控制、推出混合 GNN 模块用于把团队状态 - 动作价值函数分解为单独智能体的观测 - 动作价值函数、显式接受损失分配。该方法称为 GraphMIX,能够优于当前最先进方法,可用于 StarCraft II 多智能体挑战基准测试中,同时能够改善智能体性能并使其适应更高数量和 / 或操作的不匹配测试情景。
Oct, 2020
本文介绍了一种基于 Graph Neural Networks 和注意力机制的多代理路径规划算法,在实验中表现良好,即使在非常大规模的情况下也能取得比基准模型高 47%的成功率。
Nov, 2020
提出了一种新的分布式交互图构建算法,用于解决在开放和动态环境下 DCOP 算法中交互图的生成和维护问题,并通过实验测试表明,该算法有效地构建和维护稳定的多智能体交互图。
Dec, 2022
本文通过 Cheeseman-Stutz 渐近逼近和 Expectation-Maximization 算法的结合,提出了一种有效的方法来学习混合有向无环图模型(MDAGs),并探讨了参数和模型结构的搜索问题。
Jan, 2013
本文提出了一种新的多智能体强化学习方法,旨在学习在有向无环图 (DAG) 约束条件下的多个协调智能体。我们的方法利用智能体之间的 DAG 结构,有效提高学习性能,并通过提出一种基于合成奖励的 MARL 模型的新型替代值函数来证明其作为最优值函数的下限。计算上,我们提出了一种实用的训练算法,利用新的领导智能体和奖励生成器 / 分配智能体引导分解的从属智能体更好地探索具有 DAG 约束的环境的参数空间。实证上,我们利用了四个 DAG 环境,包括英特尔高容量封装和测试工厂的真实排程,对我们的方法进行基准测试,证明其优于其他非 DAG 方法。
Jul, 2023
本研究提出了一种新的框架,双注意力图卷积网络,用于解决图分类任务中邻域汇聚和池化操作的问题,并通过实验比较证明了该模型优于其他基线模型和深度学习方法。
Apr, 2019
本文引入了一种深度隐式协调图 (DICG) 结构,用于多智能体强化学习中的协调问题,通过一个协调图神经网络实现隐式推理,实现了完全中央化和分散化之间的平衡,并在多个基准测试任务中表现出色。
Jun, 2020