QMIX: 深度多智能体强化学习的单调价值函数分解
QMIX 是一种新的价值方法,可以在集中端到端的方式下训练分散的策略,通过使用混合网络来估计联合行动价值,并通过混合网络中的非负权重和每个代理价值的单调组合来保证中心化和分散策略之间的一致性,并在 StarCraft 多智能体挑战赛(SMAC)中获得了显著的优越性。
Mar, 2020
提出了 QR-MIX 模型,通过引入分位数回归来建模联合状态行动值分布,结合 QMIX 和隐式分位数网络,提高了随机性和单调性的容忍度,优于 QMIX。
Sep, 2020
提出了 QMIX 的增强算法,通过在最大熵强化学习框架内引入额外的本地 Q 值学习方法,从而解决 QMIX 的探索策略问题,并保证了局部最优动作与全局最优动作的一致性。该方法在理论和实验上得到了验证,并在矩阵游戏、多智能体粒子环境和 SMAC-v2 中表现出了领先水平的性能。
Jun, 2024
通过引入 Potentially Optimal joint actions Weighted QMIX (POWQMIX) 算法,赋予潜在最优联合动作更高损失权重,我们能够在训练中恢复最优策略,并在矩阵游戏、捕食者 - 猎物和星际争霸 II 等多智能体环境中实验证明我们的算法优于现有的基于值函数的多智能体强化学习方法。
May, 2024
本文旨在提出一种不受结构约束的因式分解方法 QTRAN,以解决 VDN 和 QMIX 等算法只能解决部分可因式分解的多智能体强化学习任务的问题。实验结果表明,QTRAN 优于先前的算法,特别是在惩罚非合作行为的游戏中,其优势更为明显。
May, 2019
本文介绍了四种新算法:IQV,IQV-Max,QVMix 和 QVMix-Max,用于解决协作环境下发生的多智能体强化学习(MARL)问题。作者比较了这些算法和现有的 MARL 技术,并表明 QVMix 在测试环境中表现最佳,其优于其他算法的原因在于其 $Q$ 函数的过高估计偏见相对较低。
Dec, 2020
我们提出了一种 MARL 的通用价值函数分解方法 QFree,它基于优势函数开发了 IGM 原则的数学等价条件,并使用更具表达能力的混合网络结构来满足等价分解。通过在 MARL 算法的策略评估过程中将等价条件作为正则化项开发了一种新型损失函数。我们在非单调矩阵博弈场景和 Starcraft Multi-Agent Challenge (SMAC) 等复杂 MARL 基准环境中验证了该方法的有效性,并展示了其在性能方面达到了最新水平。
Nov, 2023
本文提出一种名为 MAVEN 的新方法,该方法结合了价值和基于策略的方法,引入了层次控制的潜在空间来解决 QMIX 和类似方法中的行动值表示约束引起的探索不足和次优现象。MAVEN 可以实现承诺和延时探索,在具有挑战性的 SMAC 动态负载均衡问题上取得了显着的性能提升,是一种解决复杂多智能体任务的重要方法。
Oct, 2019
在多智能体强化学习中,QMIX 使用非负函数逼近器表示联合动作价值,并在 StarCraft II 微观管理任务中取得了迄今最好的性能。然而,我们的实验表明,在某些情况下,QMIX 与 A2C 不兼容。为了在培训效率和算法性能之间获得合理的折衷,我们将价值分解扩展到与 A2C 兼容的演员临界值,并提出了一种新的演员临界值框架,即价值分解演员临界值(VDACs)。我们在 StarCraft II 微观管理任务测试平台上评估 VDACs,并证明所提出的框架改进了其他演员临界值方法的中位性能。此外,我们使用一组消融实验来确定对 VDACs 的性能做出贡献的关键因素。
Jul, 2020