合作多智能体强化学习中实现技巧和单调性约束的反思

Feb, 2021

合作多智能体强化学习中实现技巧和单调性约束的反思

Rethinking the Implementation Tricks and Monotonicity Constraint in Cooperative Multi-Agent Reinforcement Learning

Jian Hu, Siyang Jiang, Seth Austin Harding, Haibin Wu, Shih-wei Liao

TL;DR本研究调查 QMIX 算法的代码级优化和单调性约束，揭示代码级优化对 QMIX 算法改进的显著影响，并发现在纯协作任务中，单调性约束可以提高样本效率和性能。

Abstract

Many complex multi-agent systems such as robot swarms control and autonomous vehicle coordination can be modeled as multi-agent reinforcement learning (MARL) tasks. qmix, a widely popular MARL algorithm, has been

multi-agent reinforcement learning qmix code-level optimizations monotonicity constraint performance improvement

发现论文，激发创造

Soft-QMIX：整合最大熵用于单调值函数分解

提出了 QMIX 的增强算法，通过在最大熵强化学习框架内引入额外的本地 Q 值学习方法，从而解决 QMIX 的探索策略问题，并保证了局部最优动作与全局最优动作的一致性。该方法在理论和实验上得到了验证，并在矩阵游戏、多智能体粒子环境和 SMAC-v2 中表现出了领先水平的性能。

Jun, 2024

QVMix 和 QVMix-Max：将深度质量 - 值算法扩展到合作多智能体强化学习

本文介绍了四种新算法：IQV，IQV-Max，QVMix 和 QVMix-Max，用于解决协作环境下发生的多智能体强化学习（MARL）问题。作者比较了这些算法和现有的 MARL 技术，并表明 QVMix 在测试环境中表现最佳，其优于其他算法的原因在于其 $Q$ 函数的过高估计偏见相对较低。

Dec, 2020

QR-MIX: 合作多智能体强化学习中的分布式价值函数分解

提出了 QR-MIX 模型，通过引入分位数回归来建模联合状态行动值分布，结合 QMIX 和隐式分位数网络，提高了随机性和单调性的容忍度，优于 QMIX。

Sep, 2020

增强 QMIX 对抗状态攻击的鲁棒性

研究通过使用 QMIX 算法作为例子，讨论了四种方法来提高单智能体强化学习算法的鲁棒性，并将它们扩展到多智能体情景中，并使用各种攻击来训练模型，以增加多智能体强化学习算法的鲁棒性。

Jul, 2023

量子多智能体强化学习与自主移动协作

基于量子供应链，并结合多智能体强化学习和量子优势，提出了一种能够实现多智能体合作、有效利用参数和快速收敛的量子 MARL 算法，并引入了投影值测量技术来进一步提高可伸缩性。

Aug, 2023

基于加权 QMIX 算法的深度多智能体强化学习中的单调价值函数分解扩展

该研究提出 QMIX 算法的限制防止了其表示值函数，引入加权方案来恢复表示并提高性能

Jun, 2020

高效的样本有效的多智能体强化学习：优化视角

我们研究了多智能体强化学习 (MARL) 在一般和马尔可夫博弈 (MG) 下具有一般函数逼近的情况。通过引入一种新颖的复杂度度量，即多智能体解耦系数 (MADC)，我们旨在找到基于样本高效学习的最小假设。利用该度量，我们提出了首个统一的算法框架，可以在低 MADC 的情况下保证在模型为基础和模型无关的 MARL 问题中学习纳什均衡、粗粒度相关均衡和相关均衡的样本效率性。此外，我们还展示了与现有工作相比，我们的算法提供了可比较的次线性遗憾。此外，我们的算法结合了一个均衡求解器和一个单一目标优化次程序，用于求解每个确定性联合策略的正则化收益，从而避免在数据相关的约束条件下求解约束优化问题 (Jin et al. 2020; Wang et al. 2023)，或在复杂的多目标优化问题 (Foster et al. 2023) 中执行抽样过程，因此更适合于实证实现。

Oct, 2023

合作任务中的多智能体深度强化学习算法评估

本研究提供一个系统化的评估来比较三种不同类别的多智能体深度强化学习算法（独立学习、集中式多智能体策略梯度、价值分解）在多样化的合作多智能体学习任务中的表现，为算法在不同学习任务中的预期性能提供参考，并提供了有关不同学习方法有效性的见解。我们开源了 EPyMARL，延伸了 PyMARL 代码库以包括其他算法，并允许对算法实现细节进行灵活配置，例如参数共享。最后，我们还开源了两个多智能体研究的环境，重点是在稀疏奖励下的协调。

Jun, 2020

通过奖励归因分解进行多智能体协作

本文提出了一种名为 Collaborative Q-learning (CollaQ) 的多智能体协作强化学习算法，它利用 Multi-Agent Reward Attribution (MARA) loss 进行训练并在 StarCraft 多智能体挑战中表现出色，尤其支持 ad hoc 团队玩法。该算法能将每个智能体的 Q 函数分解为自表达项和交互项，并在无需重新训练 / 微调的情况下，显著提高 SoTA 超过 30%。

Oct, 2020

合作多智能体强化学习中常见实践的重新审视

围绕合作多智能体强化学习，实现了依照价值分解及参数共用两大设计原则，其中心的 Q 函数通过局部化的 Q 网络在代理间共享参数。然而，我们证明在某些环境中，比如高度多模式的奖励环境下，价值分解以及参数共享会引起问题并导致不良结果。相反，个体策略的策略梯度方法在这些情况下可以收敛到最优解，并部分支持最近在许多 MARL 测试床上表现良好的 PG 方法。得出实验结果后，我们提出实用建议，并在简化的矩阵和网格世界游戏以及 StarCraft 多代理挑战和谷歌研究足球等各种领域进行了实证验证。希望我们的研究能够为开发更普遍和更强大的 MARL 算法的社区带来益处。

Jun, 2022