深度多智能体强化学习的单调价值函数分解

ICMLMar, 2020

深度多智能体强化学习的单调价值函数分解

Monotonic Value Function Factorisation for Deep Multi-Agent Reinforcement Learning

Tabish Rashid, Mikayel Samvelyan, Christian Schroeder de Witt, Gregory Farquhar, Jakob Foerster...

TL;DRQMIX 是一种新的价值方法，可以在集中端到端的方式下训练分散的策略，通过使用混合网络来估计联合行动价值，并通过混合网络中的非负权重和每个代理价值的单调组合来保证中心化和分散策略之间的一致性，并在 StarCraft 多智能体挑战赛（SMAC）中获得了显著的优越性。

Abstract

In many real-world settings, a team of agents must coordinate its behaviour while acting in a decentralised fashion. At the same time, it is often possible to train the agents in a centralised fashion where global state information is available and communication constraints are lifted. Learning joint action-values conditioned on extra state information is an

decentralised policies centralised learning qmix multi-agent reinforcement learning smac

发现论文，激发创造

QMIX: 深度多智能体强化学习的单调价值函数分解

QMIX 是一种基于价值的方法，可以在中央化端到端方式下训练去中心化策略，其在 StarCraft II 微管理任务中表现良好并优于现有的基于价值的多智能体强化学习方法。

Mar, 2018

基于加权 QMIX 算法的深度多智能体强化学习中的单调价值函数分解扩展

该研究提出 QMIX 算法的限制防止了其表示值函数，引入加权方案来恢复表示并提高性能

Jun, 2020

QR-MIX: 合作多智能体强化学习中的分布式价值函数分解

提出了 QR-MIX 模型，通过引入分位数回归来建模联合状态行动值分布，结合 QMIX 和隐式分位数网络，提高了随机性和单调性的容忍度，优于 QMIX。

Sep, 2020

Soft-QMIX：整合最大熵用于单调值函数分解

提出了 QMIX 的增强算法，通过在最大熵强化学习框架内引入额外的本地 Q 值学习方法，从而解决 QMIX 的探索策略问题，并保证了局部最优动作与全局最优动作的一致性。该方法在理论和实验上得到了验证，并在矩阵游戏、多智能体粒子环境和 SMAC-v2 中表现出了领先水平的性能。

Jun, 2024

QFree：多智能体强化学习的通用价值函数因子分解

我们提出了一种 MARL 的通用价值函数分解方法 QFree，它基于优势函数开发了 IGM 原则的数学等价条件，并使用更具表达能力的混合网络结构来满足等价分解。通过在 MARL 算法的策略评估过程中将等价条件作为正则化项开发了一种新型损失函数。我们在非单调矩阵博弈场景和 Starcraft Multi-Agent Challenge (SMAC) 等复杂 MARL 基准环境中验证了该方法的有效性，并展示了其在性能方面达到了最新水平。

Nov, 2023

QTRAN：基于变换因式分解的合作多智能体强化学习算法

本文旨在提出一种不受结构约束的因式分解方法 QTRAN，以解决 VDN 和 QMIX 等算法只能解决部分可因式分解的多智能体强化学习任务的问题。实验结果表明，QTRAN 优于先前的算法，特别是在惩罚非合作行为的游戏中，其优势更为明显。

May, 2019

价值分解的多智能体演员 - 评论家模型

在多智能体强化学习中，QMIX 使用非负函数逼近器表示联合动作价值，并在 StarCraft II 微观管理任务中取得了迄今最好的性能。然而，我们的实验表明，在某些情况下，QMIX 与 A2C 不兼容。为了在培训效率和算法性能之间获得合理的折衷，我们将价值分解扩展到与 A2C 兼容的演员临界值，并提出了一种新的演员临界值框架，即价值分解演员临界值（VDACs）。我们在 StarCraft II 微观管理任务测试平台上评估 VDACs，并证明所提出的框架改进了其他演员临界值方法的中位性能。此外，我们使用一组消融实验来确定对 VDACs 的性能做出贡献的关键因素。

Jul, 2020

POWQMIX：加权值分解与潜在最优联合行动识别的合作多智能体强化学习

通过引入 Potentially Optimal joint actions Weighted QMIX (POWQMIX) 算法，赋予潜在最优联合动作更高损失权重，我们能够在训练中恢复最优策略，并在矩阵游戏、捕食者 - 猎物和星际争霸 II 等多智能体环境中实验证明我们的算法优于现有的基于值函数的多智能体强化学习方法。

May, 2024

QVMix 和 QVMix-Max：将深度质量 - 值算法扩展到合作多智能体强化学习

本文介绍了四种新算法：IQV，IQV-Max，QVMix 和 QVMix-Max，用于解决协作环境下发生的多智能体强化学习（MARL）问题。作者比较了这些算法和现有的 MARL 技术，并表明 QVMix 在测试环境中表现最佳，其优于其他算法的原因在于其 $Q$ 函数的过高估计偏见相对较低。

Dec, 2020

多智能体强化学习中的图卷积值分解

该论文提出了一种新颖的基于图神经网络的多智能体深度强化学习价值函数分解框架，包括目标团队代理作为一组完整有向图的节点、采用注意机制进行边权重控制、推出混合 GNN 模块用于把团队状态 - 动作价值函数分解为单独智能体的观测 - 动作价值函数、显式接受损失分配。该方法称为 GraphMIX，能够优于当前最先进方法，可用于 StarCraft II 多智能体挑战基准测试中，同时能够改善智能体性能并使其适应更高数量和 / 或操作的不匹配测试情景。

Oct, 2020