通过奖励归因分解进行多智能体协作

Oct, 2020

通过奖励归因分解进行多智能体协作

Multi-Agent Collaboration via Reward Attribution Decomposition

Tianjun Zhang, Huazhe Xu, Xiaolong Wang, Yi Wu, Kurt Keutzer...

TL;DR本文提出了一种名为 Collaborative Q-learning (CollaQ) 的多智能体协作强化学习算法，它利用 Multi-Agent Reward Attribution (MARA) loss 进行训练并在 StarCraft 多智能体挑战中表现出色，尤其支持 ad hoc 团队玩法。该算法能将每个智能体的 Q 函数分解为自表达项和交互项，并在无需重新训练 / 微调的情况下，显著提高 SoTA 超过 30%。

Abstract

Recent advances in multi-agent reinforcement learning (MARL) have achieved super-human performance in games like Quake 3 and Dota 2. Unfortunately, these techniques require orders-of-magnitude more training rounds than humans and don't generalize to new agent configurations even on the

multi-agent reinforcement learning collaborative q-learning (collaq)starcraft ad hoc team play mara loss

发现论文，激发创造

量子多智能体强化学习与自主移动协作

基于量子供应链，并结合多智能体强化学习和量子优势，提出了一种能够实现多智能体合作、有效利用参数和快速收敛的量子 MARL 算法，并引入了投影值测量技术来进一步提高可伸缩性。

Aug, 2023

eQMARL: 量子通道上分布式协作的纠缠量子多智能体强化学习

提出了一种名为 eQMARL 的新型框架，通过量子通道促进协作，并通过量子纠缠的分裂评论家消除本地观察共享，实验结果表明，eQMARL 相较于传统的分裂和完全中心化的经典和量子基线，能够在更短的时间内收敛到合作策略，且拥有更高的整体分数，与传统的分裂经典基线相比，eQMARL 只需要少于 25 倍的中心化参数。

May, 2024

用于深度多智能体强化学习的 Q 值路径分解

本论文提出一种名为 Q-value Path Decomposition（QPD）的方法，该方法利用集成渐变归因技术对深度多智能体强化学习中的全局 Q 值进行分解，以便为代理分配信用，解决了多智能体信用分配的关键挑战，该方法在 StarCraft II 微观管理任务中优于现有协作 MARL 算法。

Feb, 2020

Qatten：一种用于协作多智能体强化学习的通用框架

本文提出了一种基于多头注意力机制和 Q-value 分解的深度多智能体强化学习算法和最大化算法，并在 StarCraft 基准测试中表现出国内领先的性能。

Feb, 2020

具有技能发现的分层合作多智能体强化学习

为实现人工智能在团队比赛中与人类的合作，本文提出了一种基于分层式多智能体强化学习算法的技能发现和团队协作方法，并通过实验验证其可行性。

Dec, 2019

合作多智能体强化学习中常见实践的重新审视

围绕合作多智能体强化学习，实现了依照价值分解及参数共用两大设计原则，其中心的 Q 函数通过局部化的 Q 网络在代理间共享参数。然而，我们证明在某些环境中，比如高度多模式的奖励环境下，价值分解以及参数共享会引起问题并导致不良结果。相反，个体策略的策略梯度方法在这些情况下可以收敛到最优解，并部分支持最近在许多 MARL 测试床上表现良好的 PG 方法。得出实验结果后，我们提出实用建议，并在简化的矩阵和网格世界游戏以及 StarCraft 多代理挑战和谷歌研究足球等各种领域进行了实证验证。希望我们的研究能够为开发更普遍和更强大的 MARL 算法的社区带来益处。

Jun, 2022

合作多智能体任务中的奖励机器学习

本文提出了一种新的多智能体强化学习方法，该方法将合作任务分解与学习奖励机器相结合，以编码子任务的结构。该方法有助于处理部分可观察环境中奖励的非马尔可夫性质，并提高了完成合作任务所需的学习策略的可解释性。每个子任务关联的奖励机器以分散的方式学习，然后用于指导每个智能体的行为，从而减少了合作多智能体问题的复杂性，更有效的学习。结果表明，我们的方法是未来 MARL 研究的一个有前景的方向，特别是在具有大状态空间和多个智能体的复杂环境中。

Mar, 2023

均场多智体强化学习：一种分散网络方法

提出了基于 LTDE-Neural-AC 和演员 - 评论家方法的多智能体强化学习算法，应用于自驾车、拼车、数据和交通路由模型的图网络，其解决了分散式多智能体强化学习网络结构的问题，并具有收敛保证的优势。

Aug, 2021

有效多智能体 Q-Learning 的图探索

本文提出了一种基于图通信的多智能体强化学习探索技术，通过邻近智能体的协作来估计状态 - 动作空间的不确定性，从而在不需要计数机制且可以应用于连续状态环境的前提下执行更有效的探索行为，可以实现最小的信息交换和完全分散的通信方式，并用理论和实验结果分别验证了其在离散状态和连续状态下的性能。

Apr, 2023

多智能体强化学习中的策略蒸馏与价值匹配

本文提出了一种多智能体 Actor-Critic 算法，通过分解多智能体问题以及知识蒸馏和价值匹配等方法，使智能体之间能够共享信息并解决维度灾难问题，进而在离散和连续动作空间中实现更好的性能。

Mar, 2019