QVMix 和 QVMix-Max：将深度质量 - 值算法扩展到合作多智能体强化学习

AAAIDec, 2020

QVMix 和 QVMix-Max：将深度质量 - 值算法扩展到合作多智能体强化学习

QVMix and QVMix-Max: Extending the Deep Quality-Value Family of Algorithms to Cooperative Multi-Agent Reinforcement Learning

PDF

Pascal Leroy, Damien Ernst, Pierre Geurts, Gilles Louppe, Jonathan Pisane...

TL;DR本文介绍了四种新算法：IQV，IQV-Max，QVMix 和 QVMix-Max，用于解决协作环境下发生的多智能体强化学习（MARL）问题。作者比较了这些算法和现有的 MARL 技术，并表明 QVMix 在测试环境中表现最佳，其优于其他算法的原因在于其 $Q$ 函数的过高估计偏见相对较低。

Abstract

This paper introduces four new algorithms that can be used for tackling multi-agent reinforcement learning (MARL) problems occurring in cooperative settings. All algorithms are based on the Deep Quality-Value (DQV) family of algorithms, a set of techniques that have proven to be succes

multi-agent reinforcement learning deep quality-value algorithms decentralised training centralised training overestimation bias

发现论文，激发创造

QR-MIX: 合作多智能体强化学习中的分布式价值函数分解

提出了 QR-MIX 模型，通过引入分位数回归来建模联合状态行动值分布，结合 QMIX 和隐式分位数网络，提高了随机性和单调性的容忍度，优于 QMIX。

Sep, 2020

多智能体深度网络下的多样化 Q - 向量强化学习

本论文扩展了之前的研究，提出了一种能够使用 Max、Nash 和 Maximin 策略学习各种 Q 向量的深度 Q 网络（DQN）算法，并在双机械臂合作举起锅的环境中展示了这种方法的有效性。

Jun, 2024

价值分解的多智能体演员 - 评论家模型

在多智能体强化学习中，QMIX 使用非负函数逼近器表示联合动作价值，并在 StarCraft II 微观管理任务中取得了迄今最好的性能。然而，我们的实验表明，在某些情况下，QMIX 与 A2C 不兼容。为了在培训效率和算法性能之间获得合理的折衷，我们将价值分解扩展到与 A2C 兼容的演员临界值，并提出了一种新的演员临界值框架，即价值分解演员临界值（VDACs）。我们在 StarCraft II 微观管理任务测试平台上评估 VDACs，并证明所提出的框架改进了其他演员临界值方法的中位性能。此外，我们使用一组消融实验来确定对 VDACs 的性能做出贡献的关键因素。

Jul, 2020

合作多智能体强化学习中实现技巧和单调性约束的反思

本研究调查 QMIX 算法的代码级优化和单调性约束，揭示代码级优化对 QMIX 算法改进的显著影响，并发现在纯协作任务中，单调性约束可以提高样本效率和性能。

Feb, 2021

增强 QMIX 对抗状态攻击的鲁棒性

研究通过使用 QMIX 算法作为例子，讨论了四种方法来提高单智能体强化学习算法的鲁棒性，并将它们扩展到多智能体情景中，并使用各种攻击来训练模型，以增加多智能体强化学习算法的鲁棒性。

Jul, 2023

Soft-QMIX：整合最大熵用于单调值函数分解

提出了 QMIX 的增强算法，通过在最大熵强化学习框架内引入额外的本地 Q 值学习方法，从而解决 QMIX 的探索策略问题，并保证了局部最优动作与全局最优动作的一致性。该方法在理论和实验上得到了验证，并在矩阵游戏、多智能体粒子环境和 SMAC-v2 中表现出了领先水平的性能。

Jun, 2024

量子多智能体强化学习与自主移动协作

基于量子供应链，并结合多智能体强化学习和量子优势，提出了一种能够实现多智能体合作、有效利用参数和快速收敛的量子 MARL 算法，并引入了投影值测量技术来进一步提高可伸缩性。

Aug, 2023

基于加权 QMIX 算法的深度多智能体强化学习中的单调价值函数分解扩展

该研究提出 QMIX 算法的限制防止了其表示值函数，引入加权方案来恢复表示并提高性能

Jun, 2020

QMIX: 深度多智能体强化学习的单调价值函数分解

QMIX 是一种基于价值的方法，可以在中央化端到端方式下训练去中心化策略，其在 StarCraft II 微管理任务中表现良好并优于现有的基于价值的多智能体强化学习方法。

Mar, 2018

深度多智能体强化学习的单调价值函数分解

QMIX 是一种新的价值方法，可以在集中端到端的方式下训练分散的策略，通过使用混合网络来估计联合行动价值，并通过混合网络中的非负权重和每个代理价值的单调组合来保证中心化和分散策略之间的一致性，并在 StarCraft 多智能体挑战赛（SMAC）中获得了显著的优越性。

Mar, 2020