TAPE: 基于智能体拓扑的合作多智能体策略梯度

Dec, 2023

TAPE: 基于智能体拓扑的合作多智能体策略梯度

TAPE: Leveraging Agent Topology for Cooperative Multi-Agent Policy Gradient

Xingzhou Lou, Junge Zhang, Timothy J. Norman, Kaiqi Huang, Yali Du

TL;DR提出了一个代理拓扑框架，通过在策略梯度中考虑其他代理来实现协作与解决分布一致性不匹配问题的折中方案。该代理拓扑可以使代理使用联盟效用作为学习目标，避免了全局效用或局部效用带来的问题，并通过实验结果表明能够改善 TAPE 的性能。

Abstract

multi-agent policy gradient (MAPG) has made significant progress in recent years. However, centralized critics in state-of-the-art MAPG methods still face the centralized-decentralized mismatch (CDM) issue, which

multi-agent policy gradient centralized-decentralized mismatch agent topology cooperation alleviating the cdm issue

发现论文，激发创造

离策略多智体分解策略梯度

本文研究多智能体问题中现有的算法相比于最先进的价值方法存在的性能差异，并提出了一种多智能体分解的策略梯度方法，该方法引入了价值函数分解的想法，并针对离散和连续动作空间中的集中 - 分散不匹配和信用分配问题进行了解决。实验结果表明，该方法在同类算法中的表现优异。

Jul, 2020

利用转化和蒸馏框架实现合作多智能体强化学习的全局最优

本文提出了一种名为 TAD 的框架用于解决多智能体强化学习中去中心化执行策略下的优化问题，并理论上证明了使用 devaluation descent 优化方法时多个流行的多智能体强化学习算法是次优的。使用该框架实施的 TAD-PPO 算法在一系列合作多智能体任务中，相对于基于 PPO 算法的算法具有显著的优越性能。

Jul, 2022

基于深度强化学习的多智能体通信与协作决策研究

本篇论文基于 CTDE 框架，研究基于 MAPPO 算法的多智能体合作决策，并引入了基于权重调度和注意力机制的多智能体通信机制以缓解多智能体环境中的非稳定性。提出了 MCGOPPO 算法，并在 SMAC 和 MPE 上进行了实验，结果表明此算法可以改善多智能体环境中的非稳定性，提高多智能体间的协同决策能力。

May, 2023

带拓扑约束的多目标策略梯度

本文研究了针对连续状态空间和未知状态转移动态的拓扑马尔科夫决策过程（TMDPs）的策略梯度定理及其实现，进一步扩展了 TMDPs 在面对多种复杂问题方面的应用，提出了一种针对多目标导航问题的新算法，并在模拟环境和实际机器人上进行了演示。

Sep, 2022

多智能体探索的主动神经拓扑映射

在这篇论文中，我们提出了一种名为 MANTM（Multi-Agent Neural Topological Mapping）的方法，用于改善多智能体探索任务的效率和泛化能力，通过构建包含主要节点和对应虚拟节点的图形，以及使用图神经网络从粗到细的方式捕捉智能体与图节点之间的相关性进行全局目标选择。通过在模拟器 Habitat 中进行广泛实验，我们发现 MANTM 在未见过的场景中，相比于基于规划和基于强化学习的竞争方法，可以将步骤至少减少 26.40％和 7.63％。

Nov, 2023

反事实多智能体策略梯度

通过提出一种新的多智能体演员 - 评论家方法，使用中心化评论家估算 Q 函数和分散化演员来优化智能体的策略，使用反事实基线来处理多智能体学分分配的挑战，该方法能够有效地学习到分散式问题的解决方案，并在星际争霸微操作测试环境中显著提高了绩效表现。

May, 2017

面向分散网络系统的可扩展基于模型的策略优化

本文旨在提高多智能体控制的数据效率，采用基于模型的学习方式，通过多个代理通过本地通信进行合作完成任务，实现分散的基于模型的策略优化框架，提出了扩展的价值函数，理论上证明了产生的策略梯度是真实策略梯度的一个紧密近似，并在智能交通系统的多项基准测试上展示了出色的数据效率和与真实模型的无模型方法匹配的性能。

Jul, 2022

合作多智能体强化学习中常见实践的重新审视

围绕合作多智能体强化学习，实现了依照价值分解及参数共用两大设计原则，其中心的 Q 函数通过局部化的 Q 网络在代理间共享参数。然而，我们证明在某些环境中，比如高度多模式的奖励环境下，价值分解以及参数共享会引起问题并导致不良结果。相反，个体策略的策略梯度方法在这些情况下可以收敛到最优解，并部分支持最近在许多 MARL 测试床上表现良好的 PG 方法。得出实验结果后，我们提出实用建议，并在简化的矩阵和网格世界游戏以及 StarCraft 多代理挑战和谷歌研究足球等各种领域进行了实证验证。希望我们的研究能够为开发更普遍和更强大的 MARL 算法的社区带来益处。

Jun, 2022

多智体策略梯度方差解决

本文通过量化多智能体强化学习算法中智能体数量和探索策略对算法模型的方差的贡献，并采用优化基线的方式来降低方差，提出了一种解决多智能体 PG 方法效率下降的方案，并在 MuJoCo 和 StarCraft 场景下验证有效性。

Aug, 2021

FMAP: 分布式合作多智能体规划

这篇论文提出了 FMAP（Forward Multi-Agent Planning），这是一种完全分布式的多智能体规划方法，它结合了规划和协调，并通过前向链式部分排序规划器在代理商联合探索计划空间，然后应用隐私模型进行通讯。实验表明，FMAP 是一种通用方法，能够高效地解决紧密耦合的领域问题和普遍问题，并且在解决国际计划竞赛基准的复杂规划任务方面优于当前 MAP 系统。

Jan, 2015