POWQMIX：加权值分解与潜在最优联合行动识别的合作多智能体强化学习

May, 2024

POWQMIX：加权值分解与潜在最优联合行动识别的合作多智能体强化学习

POWQMIX: Weighted Value Factorization with Potentially Optimal Joint Actions Recognition for Cooperative Multi-Agent Reinforcement Learning

PDF

Chang Huang, Junqiao Zhao, Shatong Zhu, Hongtu Zhou, Chen Ye...

TL;DR通过引入 Potentially Optimal joint actions Weighted QMIX (POWQMIX) 算法，赋予潜在最优联合动作更高损失权重，我们能够在训练中恢复最优策略，并在矩阵游戏、捕食者 - 猎物和星际争霸 II 等多智能体环境中实验证明我们的算法优于现有的基于值函数的多智能体强化学习方法。

Abstract

value function factorization methods are commonly used in cooperative multi-agent reinforcement learning, with QMIX receiving significant attention. Many QMIX-based methods introduce monotonicity constraints between the joint action value and individual action values to achieve

value function factorization methods qmix algorithm decentralized execution potentially optimal joint actions weighted qmix algorithm state-of-the-art value-based multi-agent reinforcement learning methods

发现论文，激发创造

基于加权 QMIX 算法的深度多智能体强化学习中的单调价值函数分解扩展

该研究提出 QMIX 算法的限制防止了其表示值函数，引入加权方案来恢复表示并提高性能

Jun, 2020

QMIX: 深度多智能体强化学习的单调价值函数分解

QMIX 是一种基于价值的方法，可以在中央化端到端方式下训练去中心化策略，其在 StarCraft II 微管理任务中表现良好并优于现有的基于价值的多智能体强化学习方法。

Mar, 2018

深度多智能体强化学习的单调价值函数分解

QMIX 是一种新的价值方法，可以在集中端到端的方式下训练分散的策略，通过使用混合网络来估计联合行动价值，并通过混合网络中的非负权重和每个代理价值的单调组合来保证中心化和分散策略之间的一致性，并在 StarCraft 多智能体挑战赛（SMAC）中获得了显著的优越性。

Mar, 2020

QR-MIX: 合作多智能体强化学习中的分布式价值函数分解

提出了 QR-MIX 模型，通过引入分位数回归来建模联合状态行动值分布，结合 QMIX 和隐式分位数网络，提高了随机性和单调性的容忍度，优于 QMIX。

Sep, 2020

QTRAN：基于变换因式分解的合作多智能体强化学习算法

本文旨在提出一种不受结构约束的因式分解方法 QTRAN，以解决 VDN 和 QMIX 等算法只能解决部分可因式分解的多智能体强化学习任务的问题。实验结果表明，QTRAN 优于先前的算法，特别是在惩罚非合作行为的游戏中，其优势更为明显。

May, 2019

Soft-QMIX：整合最大熵用于单调值函数分解

提出了 QMIX 的增强算法，通过在最大熵强化学习框架内引入额外的本地 Q 值学习方法，从而解决 QMIX 的探索策略问题，并保证了局部最优动作与全局最优动作的一致性。该方法在理论和实验上得到了验证，并在矩阵游戏、多智能体粒子环境和 SMAC-v2 中表现出了领先水平的性能。

Jun, 2024

QVMix 和 QVMix-Max：将深度质量 - 值算法扩展到合作多智能体强化学习

本文介绍了四种新算法：IQV，IQV-Max，QVMix 和 QVMix-Max，用于解决协作环境下发生的多智能体强化学习（MARL）问题。作者比较了这些算法和现有的 MARL 技术，并表明 QVMix 在测试环境中表现最佳，其优于其他算法的原因在于其 $Q$ 函数的过高估计偏见相对较低。

Dec, 2020

QFree：多智能体强化学习的通用价值函数因子分解

我们提出了一种 MARL 的通用价值函数分解方法 QFree，它基于优势函数开发了 IGM 原则的数学等价条件，并使用更具表达能力的混合网络结构来满足等价分解。通过在 MARL 算法的策略评估过程中将等价条件作为正则化项开发了一种新型损失函数。我们在非单调矩阵博弈场景和 Starcraft Multi-Agent Challenge (SMAC) 等复杂 MARL 基准环境中验证了该方法的有效性，并展示了其在性能方面达到了最新水平。

Nov, 2023

DFAC 框架：通过分位点混合因式分解价值函数的多智能体分布式 Q 学习

本研究提出分布式价值函数分解（DFAC）框架，将分布式 RL 和价值函数分解方法相结合以解决多智能体强化学习环境中不确定性和随机性问题，实验证明 DFAC 可以在含随机回报的博弈任务上优于期望价值函数分解方法。

Feb, 2021

逆因子化 Q-Learning 用于合作多智能体模仿学习

该论文提出了一种针对合作多智能体系统的新颖多智能体模仿学习算法，通过使用混合网络聚合分散的 Q 函数，实现了集中式学习，并在具有高度挑战性的竞争性和合作性多智能体游戏环境中进行了广泛实验，表明该算法相对于现有的多智能体模仿学习算法具有显著的有效性。

Oct, 2023