QPLEX: 双工 Dueling 多智能体 Q 学习
我们提出了一种 MARL 的通用价值函数分解方法 QFree,它基于优势函数开发了 IGM 原则的数学等价条件,并使用更具表达能力的混合网络结构来满足等价分解。通过在 MARL 算法的策略评估过程中将等价条件作为正则化项开发了一种新型损失函数。我们在非单调矩阵博弈场景和 Starcraft Multi-Agent Challenge (SMAC) 等复杂 MARL 基准环境中验证了该方法的有效性,并展示了其在性能方面达到了最新水平。
Nov, 2023
提出了 QR-MIX 模型,通过引入分位数回归来建模联合状态行动值分布,结合 QMIX 和隐式分位数网络,提高了随机性和单调性的容忍度,优于 QMIX。
Sep, 2020
提出了 QMIX 的增强算法,通过在最大熵强化学习框架内引入额外的本地 Q 值学习方法,从而解决 QMIX 的探索策略问题,并保证了局部最优动作与全局最优动作的一致性。该方法在理论和实验上得到了验证,并在矩阵游戏、多智能体粒子环境和 SMAC-v2 中表现出了领先水平的性能。
Jun, 2024
围绕合作多智能体强化学习,实现了依照价值分解及参数共用两大设计原则,其中心的 Q 函数通过局部化的 Q 网络在代理间共享参数。然而,我们证明在某些环境中,比如高度多模式的奖励环境下,价值分解以及参数共享会引起问题并导致不良结果。相反,个体策略的策略梯度方法在这些情况下可以收敛到最优解,并部分支持最近在许多 MARL 测试床上表现良好的 PG 方法。得出实验结果后,我们提出实用建议,并在简化的矩阵和网格世界游戏以及 StarCraft 多代理挑战和谷歌研究足球等各种领域进行了实证验证。希望我们的研究能够为开发更普遍和更强大的 MARL 算法的社区带来益处。
Jun, 2022
本文介绍了四种新算法:IQV,IQV-Max,QVMix 和 QVMix-Max,用于解决协作环境下发生的多智能体强化学习(MARL)问题。作者比较了这些算法和现有的 MARL 技术,并表明 QVMix 在测试环境中表现最佳,其优于其他算法的原因在于其 $Q$ 函数的过高估计偏见相对较低。
Dec, 2020
本论文提出一种名为 Q-value Path Decomposition(QPD)的方法,该方法利用集成渐变归因技术对深度多智能体强化学习中的全局 Q 值进行分解,以便为代理分配信用,解决了多智能体信用分配的关键挑战,该方法在 StarCraft II 微观管理任务中优于现有协作 MARL 算法。
Feb, 2020
QMIX 是一种基于价值的方法,可以在中央化端到端方式下训练去中心化策略,其在 StarCraft II 微管理任务中表现良好并优于现有的基于价值的多智能体强化学习方法。
Mar, 2018
本文提出了一种基于多头注意力机制和 Q-value 分解的深度多智能体强化学习算法和最大化算法,并在 StarCraft 基准测试中表现出国内领先的性能。
Feb, 2020
本文旨在提出一种不受结构约束的因式分解方法 QTRAN,以解决 VDN 和 QMIX 等算法只能解决部分可因式分解的多智能体强化学习任务的问题。实验结果表明,QTRAN 优于先前的算法,特别是在惩罚非合作行为的游戏中,其优势更为明显。
May, 2019
本文研究了多智能体强化学习中的值函数分解方法在协作游戏中的适用情况、算法的收敛性质、深度神经网络的表示法及其应用,进一步提出了分解型协作游戏的概念,并理论证明了分解型协作游戏中多智能体适应 Q - 迭代算法(MA-FQI)可以导致最优 Q 函数。
Feb, 2022