离策略多智体分解策略梯度

Jul, 2020

Off-Policy Multi-Agent Decomposed Policy Gradients

Yihan Wang, Beining Han, Tonghan Wang, Heng Dong, Chongjie Zhang

TL;DR本文研究多智能体问题中现有的算法相比于最先进的价值方法存在的性能差异，并提出了一种多智能体分解的策略梯度方法，该方法引入了价值函数分解的想法，并针对离散和连续动作空间中的集中 - 分散不匹配和信用分配问题进行了解决。实验结果表明，该方法在同类算法中的表现优异。

Abstract

multi-agent policy gradient (MAPG) methods recently witness vigorous progress. However, there is a significant performance discrepancy between MAPG methods and state-of-the-art multi-agent value-based approaches.

multi-agent policy gradient value-based approaches decomposed policy gradient off-policy learning credit assignment

发现论文，激发创造

3DPG: 网络化多智能体系统的分布式深度确定性策略梯度算法

本论文提出了一种基于分布式深度学习的多智能体 Actor-Critic 学习算法，应用于 Markov 博弈，能够在训练和部署中实现完全分布式，具有一定的实用价值。

Jan, 2022

面向分散网络系统的可扩展基于模型的策略优化

本文旨在提高多智能体控制的数据效率，采用基于模型的学习方式，通过多个代理通过本地通信进行合作完成任务，实现分散的基于模型的策略优化框架，提出了扩展的价值函数，理论上证明了产生的策略梯度是真实策略梯度的一个紧密近似，并在智能交通系统的多项基准测试上展示了出色的数据效率和与真实模型的无模型方法匹配的性能。

Jul, 2022

分解 Soft Actor-Critic 方法用于合作多智体强化学习

本文提出了一种新的分解式多智能体软演员 - 批评家（mSAC）方法，在 StarCraft II 微观管理合作式多智能体基准测试中获得高效和优异的性能。

Apr, 2021

针对离线强化学习的高斯混合评论家的重新访问：一种基于样本的方法

本文介绍了一种新的离线强化学习算法（基于混合高斯的 Actor-Critic 方法），该方法成功地解决了 C51 方法中在最小值和最大值以及所使用的区间数上的先验知识的限制，并在众多挑战性的任务上取得了最先进的性能。

Apr, 2022

合作多智能体强化学习中常见实践的重新审视

围绕合作多智能体强化学习，实现了依照价值分解及参数共用两大设计原则，其中心的 Q 函数通过局部化的 Q 网络在代理间共享参数。然而，我们证明在某些环境中，比如高度多模式的奖励环境下，价值分解以及参数共享会引起问题并导致不良结果。相反，个体策略的策略梯度方法在这些情况下可以收敛到最优解，并部分支持最近在许多 MARL 测试床上表现良好的 PG 方法。得出实验结果后，我们提出实用建议，并在简化的矩阵和网格世界游戏以及 StarCraft 多代理挑战和谷歌研究足球等各种领域进行了实证验证。希望我们的研究能够为开发更普遍和更强大的 MARL 算法的社区带来益处。

Jun, 2022

TAPE: 基于智能体拓扑的合作多智能体策略梯度

提出了一个代理拓扑框架，通过在策略梯度中考虑其他代理来实现协作与解决分布一致性不匹配问题的折中方案。该代理拓扑可以使代理使用联盟效用作为学习目标，避免了全局效用或局部效用带来的问题，并通过实验结果表明能够改善 TAPE 的性能。

Dec, 2023

多智体策略梯度方差解决

本文通过量化多智能体强化学习算法中智能体数量和探索策略对算法模型的方差的贡献，并采用优化基线的方式来降低方差，提出了一种解决多智能体 PG 方法效率下降的方案，并在 MuJoCo 和 StarCraft 场景下验证有效性。

Aug, 2021

用于深度多智能体强化学习的 Q 值路径分解

本论文提出一种名为 Q-value Path Decomposition（QPD）的方法，该方法利用集成渐变归因技术对深度多智能体强化学习中的全局 Q 值进行分解，以便为代理分配信用，解决了多智能体信用分配的关键挑战，该方法在 StarCraft II 微观管理任务中优于现有协作 MARL 算法。

Feb, 2020

利用转化和蒸馏框架实现合作多智能体强化学习的全局最优

本文提出了一种名为 TAD 的框架用于解决多智能体强化学习中去中心化执行策略下的优化问题，并理论上证明了使用 devaluation descent 优化方法时多个流行的多智能体强化学习算法是次优的。使用该框架实施的 TAD-PPO 算法在一系列合作多智能体任务中，相对于基于 PPO 算法的算法具有显著的优越性能。

Jul, 2022

相位策略梯度

Phasic Policy Gradient (PPG) 是一种强化学习框架，通过将策略和价值函数训练分成两个不同的阶段来修改传统的在线策略演员 - 评论家方法，从而在保持各自优点的同时提高样本利用效率。

Sep, 2020