反事实多智能体策略梯度

May, 2017

Counterfactual Multi-Agent Policy Gradients

Jakob Foerster, Gregory Farquhar, Triantafyllos Afouras, Nantas Nardelli, Shimon Whiteson

TL;DR通过提出一种新的多智能体演员 - 评论家方法，使用中心化评论家估算 Q 函数和分散化演员来优化智能体的策略，使用反事实基线来处理多智能体学分分配的挑战，该方法能够有效地学习到分散式问题的解决方案，并在星际争霸微操作测试环境中显著提高了绩效表现。

Abstract

cooperative multi-agent systems can be naturally used to model many real world problems, such as network packet routing and the coordination of autonomous vehicles. There is a great need for new reinforcement learning

cooperative multi-agent systems reinforcement learning counterfactual multi-agent policy gradients centralised critic decentralised actors

发现论文，激发创造

具有图卷积通信的反事实多智体强化学习

该研究提出了一种基于图卷积和多因素策略梯度的架构，用于解决在多观察环境下多智能体之间合作最大化系统功用时的通信和奖励分配问题，并在一系列任务中取得了优异表现。

Apr, 2020

分解 Soft Actor-Critic 方法用于合作多智体强化学习

本文提出了一种新的分解式多智能体软演员 - 批评家（mSAC）方法，在 StarCraft II 微观管理合作式多智能体基准测试中获得高效和优异的性能。

Apr, 2021

FACMAC: 分解多智能体集中策略梯度

提出了 FACMAC，一种新的协同多智能体强化学习方法，包括集中式但分解的评论家和集中式政策梯度估计器等特点，并在多智能体粒子环境，一个新的多智能体 MuJoCo 基准和具有挑战性的 StarCraft II 微管理任务上进行了评估，取得了优于 MADDPG 和其他基线的实证结果。

Mar, 2020

针对场景图生成的因果评论员多智能体训练

该研究文章提出了一种基于多智能体训练的场景图生成方法，用以有效解决现有方法中存在的派生问题并提高场景理解性能。

Dec, 2018

多智能体演员 - 评论家在混合协作竞争环境下的应用

本文研究深度强化学习在多智能体领域的应用，提出一种基于演员 - 评论家方法的适应性策略，可成功学习需要多智能体协作的复杂策略，并通过使用每个智能体的策略集进行训练，得到了更强大、更健壮的策略。在合作和竞争场景中，我们的方法相比现有方法能够发现各种物理和信息协调策略。

Jun, 2017

多智能体自然演员 - 评论强化学习算法

本研究提出三种完全分散的自然 Actor Critic （MAN）算法，具有全局收敛性和在交通网络中降低平均拥堵率的实际应用。

Sep, 2021

部分观察多智能体环境下的演员 - 评论家策略优化

本研究讨论了基于梯度上升的策略梯度和演员 - 评论家算法在部分可观测多智能体环境中的角色，并通过对零和不完全信息游戏等模型的建模来优化模型自由多智能体增强学习的表现。

Oct, 2018

CM3：合作多目标多阶段多智能体强化学习

本文提出了一种名为 CM3 的结构，包括单个代理目标达成先于多个代理协作的学习过程和一种新的多目标多代理政策梯度，具有局部信任分配的信用功能。该结构在解决多个多目标多代理问题方面具有明显优势。

Sep, 2018

通用离线演员 - 评论家

提出了一个新的目标函数，counterfactual objective，用于解决连续强化学习中离线策略梯度算法中的问题，得到了广义离线策略梯度定理，并发展出了广义离线行动者 - 评论者算法（Geoff-PAC），通过模拟机器人实验表明其优于现有算法。

Mar, 2019

使用双集中式评论家减少多智能体域中的高估偏差

本文介绍了一种使用双重集中式评论家的方法来解决多智能体协作任务中的值函数高估问题，并在六种混合合作竞争任务上进行了评估，结果显示比当前方法具有显著优势，同时还探讨了多智能体方法在高维机器人任务中的应用。

Oct, 2019