Qatten:一种用于协作多智能体强化学习的通用框架
本论文提出一种名为 Q-value Path Decomposition(QPD)的方法,该方法利用集成渐变归因技术对深度多智能体强化学习中的全局 Q 值进行分解,以便为代理分配信用,解决了多智能体信用分配的关键挑战,该方法在 StarCraft II 微观管理任务中优于现有协作 MARL 算法。
Feb, 2020
围绕合作多智能体强化学习,实现了依照价值分解及参数共用两大设计原则,其中心的 Q 函数通过局部化的 Q 网络在代理间共享参数。然而,我们证明在某些环境中,比如高度多模式的奖励环境下,价值分解以及参数共享会引起问题并导致不良结果。相反,个体策略的策略梯度方法在这些情况下可以收敛到最优解,并部分支持最近在许多 MARL 测试床上表现良好的 PG 方法。得出实验结果后,我们提出实用建议,并在简化的矩阵和网格世界游戏以及 StarCraft 多代理挑战和谷歌研究足球等各种领域进行了实证验证。希望我们的研究能够为开发更普遍和更强大的 MARL 算法的社区带来益处。
Jun, 2022
本文提出了一种名为 Collaborative Q-learning (CollaQ) 的多智能体协作强化学习算法,它利用 Multi-Agent Reward Attribution (MARA) loss 进行训练并在 StarCraft 多智能体挑战中表现出色,尤其支持 ad hoc 团队玩法。该算法能将每个智能体的 Q 函数分解为自表达项和交互项,并在无需重新训练 / 微调的情况下,显著提高 SoTA 超过 30%。
Oct, 2020
该论文提出了一种新颖的基于图神经网络的多智能体深度强化学习价值函数分解框架,包括目标团队代理作为一组完整有向图的节点、采用注意机制进行边权重控制、推出混合 GNN 模块用于把团队状态 - 动作价值函数分解为单独智能体的观测 - 动作价值函数、显式接受损失分配。该方法称为 GraphMIX,能够优于当前最先进方法,可用于 StarCraft II 多智能体挑战基准测试中,同时能够改善智能体性能并使其适应更高数量和 / 或操作的不匹配测试情景。
Oct, 2020
本论文扩展了之前的研究,提出了一种能够使用 Max、Nash 和 Maximin 策略学习各种 Q 向量的深度 Q 网络(DQN)算法,并在双机械臂合作举起锅的环境中展示了这种方法的有效性。
Jun, 2024
本文介绍了四种新算法:IQV,IQV-Max,QVMix 和 QVMix-Max,用于解决协作环境下发生的多智能体强化学习(MARL)问题。作者比较了这些算法和现有的 MARL 技术,并表明 QVMix 在测试环境中表现最佳,其优于其他算法的原因在于其 $Q$ 函数的过高估计偏见相对较低。
Dec, 2020
本文提出了一种多智能体 Actor-Critic 算法,通过分解多智能体问题以及知识蒸馏和价值匹配等方法,使智能体之间能够共享信息并解决维度灾难问题,进而在离散和连续动作空间中实现更好的性能。
Mar, 2019
通过使用层次相关传播,我们将联合价值函数的学习与本地奖励信号的生成分开,提出了一个新的合作多智能体增强学习算法:相关分解网络。我们发现,尽管 VDN 和 Qmix 的性能会随着冗余智能体数目的增加而降低,但 RDN 则不受影响。
Mar, 2023
提出了一种名为 eQMARL 的新型框架,通过量子通道促进协作,并通过量子纠缠的分裂评论家消除本地观察共享,实验结果表明,eQMARL 相较于传统的分裂和完全中心化的经典和量子基线,能够在更短的时间内收敛到合作策略,且拥有更高的整体分数,与传统的分裂经典基线相比,eQMARL 只需要少于 25 倍的中心化参数。
May, 2024
我们提出了一种 MARL 的通用价值函数分解方法 QFree,它基于优势函数开发了 IGM 原则的数学等价条件,并使用更具表达能力的混合网络结构来满足等价分解。通过在 MARL 算法的策略评估过程中将等价条件作为正则化项开发了一种新型损失函数。我们在非单调矩阵博弈场景和 Starcraft Multi-Agent Challenge (SMAC) 等复杂 MARL 基准环境中验证了该方法的有效性,并展示了其在性能方面达到了最新水平。
Nov, 2023