解决多智能体状态空间维度诅咒的方法：一种统一的个体置换框架

Mar, 2022

解决多智能体状态空间维度诅咒的方法：一种统一的个体置换框架

Breaking the Curse of Dimensionality in Multiagent State Space: A Unified Agent Permutation Framework

Xiaotian Hao, Hangyu Mao, Weixun Wang, Yaodong Yang, Dong Li...

TL;DR该研究提出了一种基于排列不变性和排列等变性思想的多智能体强化学习框架，它包括动态排列网络和超策略网络等实现方式，实验证明这种方法能够显著提高已有多智能体强化学习算法的性能和学习效率，并在 SMAC 等环境中实现了前所未有的 100% 胜率。

Abstract

The state space in multiagent reinforcement learning (MARL) grows exponentially with the agent number. Such a curse of dimensionality results in poor scalability and low sample efficiency, inhibiting MARL for decades. To break this curse, we propose a unified agent permutation framewor

multiagent reinforcement learning permutation invariance permutation equivariance dynamic permutation network hyper policy network

发现论文，激发创造

多智体价值分解中的冗余挑战

通过使用层次相关传播，我们将联合价值函数的学习与本地奖励信号的生成分开，提出了一个新的合作多智能体增强学习算法：相关分解网络。我们发现，尽管 VDN 和 Qmix 的性能会随着冗余智能体数目的增加而降低，但 RDN 则不受影响。

Mar, 2023

合作多智体强化学习中的随机探索

我们提出了第一个关于合作多智能体强化学习（MARL）中可证明效率的随机探索的研究，提出了一种统一的随机探索算法框架，以及两种基于 Thompson Sampling（TS）的算法。我们在多个并行强化学习环境中评估了我们的方法，包括深度探索问题，视频游戏和能源系统中的一个实际问题。实验证明，我们的框架即使在过渡模型误指定的条件下，也能达到更好的性能，此外，我们还建立了我们统一框架与联邦学习的实际应用之间的联系。

Apr, 2024

多智能体深度强化学习中的置换不变评论家

通过提出置换不变批评家机制，能够使得多智能体强化学习系统的采样效率与可扩展性得到提高，同时在多智能体颗粒环境中经过实验验证可以使得测试回合奖励提升 15％至 50％。

Oct, 2019

多智能体强化学习中的图卷积值分解

该论文提出了一种新颖的基于图神经网络的多智能体深度强化学习价值函数分解框架，包括目标团队代理作为一组完整有向图的节点、采用注意机制进行边权重控制、推出混合 GNN 模块用于把团队状态 - 动作价值函数分解为单独智能体的观测 - 动作价值函数、显式接受损失分配。该方法称为 GraphMIX，能够优于当前最先进方法，可用于 StarCraft II 多智能体挑战基准测试中，同时能够改善智能体性能并使其适应更高数量和 / 或操作的不匹配测试情景。

Oct, 2020

更集中化的训练，仍分散化的执行：多智能体条件策略分解

本研究探索了如何在协作多智能体强化学习中融合价值分解和演员 - 评论家，并提出了多智能体条件策略分解 (MACPF) 的方法，以更好地实现部分可观察环境下的学习。同时，通过在不同的合作 MARL 任务中进行实验证明 MACPF 相对于基线的表现更优。

Sep, 2022

零样本可扩展协作的异构多智能体强化学习

我们提出了一个名为 SHPPO 的新型 MARL 框架，通过将异质性整合到共享参数的 PPO 基础的 MARL 网络中，实现了可扩展性和异构性，并在经典 MARL 环境中展示了优越的零 - shot 可扩展性和对学习潜在表示的可视化带来的团队绩效的洞察。

Apr, 2024

多智能体强化学习中的策略蒸馏与价值匹配

本文提出了一种多智能体 Actor-Critic 算法，通过分解多智能体问题以及知识蒸馏和价值匹配等方法，使智能体之间能够共享信息并解决维度灾难问题，进而在离散和连续动作空间中实现更好的性能。

Mar, 2019

具有状态不确定性的鲁棒多智能体强化学习

在多智能体强化学习中，本研究首次尝试模拟带有状态不确定性的马尔科夫博弈问题，提出鲁棒性的解决方案，并设计了两种算法，RMAQ 和 RMAAC，用于处理高维状态 - 动作空间，在存在状态不确定性下，实验证明这两种算法在多智能体环境中表现出色。

Jul, 2023

神经符号方法在可解释性和概率决策中的多智能体强化学习

多智能体强化学习（MARL）在优化多智能体共享资源中的系统性能方面具有潜力，但常见的深度学习 MARL 解决方案在真实世界问题中存在可解释性、样本效率、部分可观察性等问题。为了解决这些挑战，我们提出了一种基于事件驱动的公式，利用神经符号方法处理分布式协作 MARL 智能体的决策制定。我们还开发了一种新颖的概率神经符号框架，概率逻辑神经网络（PLNN），将逻辑推理能力与概率图模型相结合，以实现在不确定性和部分可观察性下的决策制定。我们通过解决片上系统中的功率共享问题来展示我们的研究成果。

Feb, 2024

基于超图神经网络的多智能体系统高效策略生成

本文介绍了一种基于邻域的多智能体强化学习算法，并提出了两种基于超图结构的变体方法，其中利用超图卷积网络实现了信息提取和表示学习，具有实现有效合作的显著优势。

Mar, 2022