QTRAN：基于变换因式分解的合作多智能体强化学习算法

ICMLMay, 2019

QTRAN：基于变换因式分解的合作多智能体强化学习算法

QTRAN: Learning to Factorize with Transformation for Cooperative Multi-Agent Reinforcement Learning

Kyunghwan Son, Daewoo Kim, Wan Ju Kang, David Earl Hostallero, Yung Yi

TL;DR本文旨在提出一种不受结构约束的因式分解方法 QTRAN，以解决 VDN 和 QMIX 等算法只能解决部分可因式分解的多智能体强化学习任务的问题。实验结果表明，QTRAN 优于先前的算法，特别是在惩罚非合作行为的游戏中，其优势更为明显。

Abstract

We explore value-based solutions for multi-agent reinforcement learning (MARL) tasks in the centralized training with decentralized execution (CTDE) regime popularized recently. However, VDN and QMIX are represen

multi-agent reinforcement learning centralized training with decentralized execution factorization qtran marl tasks

发现论文，激发创造

QR-MIX: 合作多智能体强化学习中的分布式价值函数分解

提出了 QR-MIX 模型，通过引入分位数回归来建模联合状态行动值分布，结合 QMIX 和隐式分位数网络，提高了随机性和单调性的容忍度，优于 QMIX。

Sep, 2020

QMIX: 深度多智能体强化学习的单调价值函数分解

QMIX 是一种基于价值的方法，可以在中央化端到端方式下训练去中心化策略，其在 StarCraft II 微管理任务中表现良好并优于现有的基于价值的多智能体强化学习方法。

Mar, 2018

QFree：多智能体强化学习的通用价值函数因子分解

我们提出了一种 MARL 的通用价值函数分解方法 QFree，它基于优势函数开发了 IGM 原则的数学等价条件，并使用更具表达能力的混合网络结构来满足等价分解。通过在 MARL 算法的策略评估过程中将等价条件作为正则化项开发了一种新型损失函数。我们在非单调矩阵博弈场景和 Starcraft Multi-Agent Challenge (SMAC) 等复杂 MARL 基准环境中验证了该方法的有效性，并展示了其在性能方面达到了最新水平。

Nov, 2023

深度多智能体强化学习的单调价值函数分解

QMIX 是一种新的价值方法，可以在集中端到端的方式下训练分散的策略，通过使用混合网络来估计联合行动价值，并通过混合网络中的非负权重和每个代理价值的单调组合来保证中心化和分散策略之间的一致性，并在 StarCraft 多智能体挑战赛（SMAC）中获得了显著的优越性。

Mar, 2020

Qatten：一种用于协作多智能体强化学习的通用框架

本文提出了一种基于多头注意力机制和 Q-value 分解的深度多智能体强化学习算法和最大化算法，并在 StarCraft 基准测试中表现出国内领先的性能。

Feb, 2020

大规模多智能体系统的分解 Q 学习

本文针对多智能体场景下动态和智能体之间的复杂性引起的动作空间爆炸问题，提出将 Q 函数近似为分解成对交互的高阶高维张量，并利用复合深度神经网络实现计算，借此简化模型，加快学习过程，通过在多个场景上的实验得出，该方法表现良好。

Sep, 2018

更集中化的训练，仍分散化的执行：多智能体条件策略分解

本研究探索了如何在协作多智能体强化学习中融合价值分解和演员 - 评论家，并提出了多智能体条件策略分解 (MACPF) 的方法，以更好地实现部分可观察环境下的学习。同时，通过在不同的合作 MARL 任务中进行实验证明 MACPF 相对于基线的表现更优。

Sep, 2022

DFAC 框架：通过分位点混合因式分解价值函数的多智能体分布式 Q 学习

本研究提出分布式价值函数分解（DFAC）框架，将分布式 RL 和价值函数分解方法相结合以解决多智能体强化学习环境中不确定性和随机性问题，实验证明 DFAC 可以在含随机回报的博弈任务上优于期望价值函数分解方法。

Feb, 2021

多智体价值分解中的冗余挑战

通过使用层次相关传播，我们将联合价值函数的学习与本地奖励信号的生成分开，提出了一个新的合作多智能体增强学习算法：相关分解网络。我们发现，尽管 VDN 和 Qmix 的性能会随着冗余智能体数目的增加而降低，但 RDN 则不受影响。

Mar, 2023

Soft-QMIX：整合最大熵用于单调值函数分解

提出了 QMIX 的增强算法，通过在最大熵强化学习框架内引入额外的本地 Q 值学习方法，从而解决 QMIX 的探索策略问题，并保证了局部最优动作与全局最优动作的一致性。该方法在理论和实验上得到了验证，并在矩阵游戏、多智能体粒子环境和 SMAC-v2 中表现出了领先水平的性能。

Jun, 2024