非线性协调图

Oct, 2022

Non-Linear Coordination Graphs

Yipeng Kang, Tonghan Wang, Xiaoran Wu, Qianlan Yang, Chongjie Zhang

TL;DR本研究提出了第一个非线性协调图，探讨如何在新的函数类中进行贪心行动选择，使用 LeakyReLU 激活的混合网络解决此问题，提出具有全局最优性保证的枚举方法和具有局部最优性保证的有效迭代优化方法的动机。在多个代理协调任务中取得了卓越性能。

Abstract

Value decomposition multi-agent reinforcement learning methods learn the global value function as a mixing of each agent's individual utility functions. coordination graphs (CGs) represent a higher-order decompos

multi-agent reinforcement learning coordination graphs non-linear value decomposition action selections iterative optimization

发现论文，激发创造

深度协同图

本文介绍了用于协作式多智能体强化学习的深度协调图（DCG）。DCG 通过协调图将所有智能体的联合价值函数因子化为智能体对之间的收益，从而在表征能力和泛化能力之间取得了灵活的折衷，解决了多智能体系统面临的相对过度泛化问题，在 StarCraft II 的微观管理任务中取得了显著的效果。

Sep, 2019

基于贪心边际贡献计算的适应值分解用于协同多智体强化学习

本研究提出了一种新的显式学分分配方法，名为具有贪心边际贡献的自适应价值分解（AVGM），它基于一种自适应价值分解，可以学习动态变化的多个智能体组的协作价值，并使用由价值分解计算出的贪心边际贡献作为个体信用来激励智能体学习最优协作策略。实验结果表明，我们的方法在多个非单调领域取得了显着的性能提高。

Feb, 2023

多智能体强化学习中的图卷积值分解

该论文提出了一种新颖的基于图神经网络的多智能体深度强化学习价值函数分解框架，包括目标团队代理作为一组完整有向图的节点、采用注意机制进行边权重控制、推出混合 GNN 模块用于把团队状态 - 动作价值函数分解为单独智能体的观测 - 动作价值函数、显式接受损失分配。该方法称为 GraphMIX，能够优于当前最先进方法，可用于 StarCraft II 多智能体挑战基准测试中，同时能够改善智能体性能并使其适应更高数量和 / 或操作的不匹配测试情景。

Oct, 2020

深度合作多智能体强化学习中的价值分解算法理解

本文研究了多智能体强化学习中的值函数分解方法在协作游戏中的适用情况、算法的收敛性质、深度神经网络的表示法及其应用，进一步提出了分解型协作游戏的概念，并理论证明了分解型协作游戏中多智能体适应 Q - 迭代算法（MA-FQI）可以导致最优 Q 函数。

Feb, 2022

带有定向协调图的分布式合作多智能体强化学习

本文提出了一种分布式强化学习算法，该算法使用直接协调图和局部值函数，通过零阶优化方法进行条件估计，没有使用任何共识算法。与现有的基于零阶优化的强化学习算法相比，我们的算法保证了高可扩展性。

Jan, 2022

协作多智体学习的价值分解网络

利用价值分解网络架构解决合作多智能体强化学习中的观测部分性、虚假奖励和 “懒惰智能体” 问题，并在与共享权重、角色信息和信息通道相结合的情况下，在部分可观测的多智能体领域取得优越结果。

Jun, 2017

多智能体强化学习的群体感知协调图

我们提出了一种新的方法来推断组感知协作图（GACG），以捕捉基于当前观测到的代理之间的合作以及跨轨迹观察到的行为模式的组水平依赖关系，并在决策过程中使用该图进行信息交换。通过在 StarCraft II 微管理任务上进行评估，我们证明了 GACG 的卓越性能。进一步的消融研究为我们的方法的每个组成部分的有效性提供了实验证据。

Apr, 2024

基于图诱导的局部价值函数的分布式多智能体强化学习

本文提出了一种可行的分布式学习框架来处理多智能体协作强化学习中的信任问题，这种方法使用图的结构描述不同类型的多智能体之间的关系，并提出了两种基于本地价值函数的分布式 Reinforcement Learning (RL) 方法，能够在保证有效性的前提下，大幅减少采样复杂性。

Feb, 2022

重新思考强化学习中的值函数学习以实现泛化

本研究旨在训练多个视觉环境下的 RL 代理以提高观察泛化性能，并提出了一种延迟评论者策略梯度（DCPG）算法，该算法可以使用单一统一的网络架构来实现，极大地提高了 Procgen 基准测试的样本效率和观测泛化性能。

Oct, 2022

多智能体强化学习的深层隐式协调图

本文引入了一种深度隐式协调图 (DICG) 结构，用于多智能体强化学习中的协调问题，通过一个协调图神经网络实现隐式推理，实现了完全中央化和分散化之间的平衡，并在多个基准测试任务中表现出色。

Jun, 2020