Mar, 2020
FACMAC: 分解多智能体集中策略梯度
Deep Multi-Agent Reinforcement Learning for Decentralized Continuous
Cooperative Control
Christian Schroeder de Witt, Bei Peng, Pierre-Alexandre Kamienny, Philip Torr, Wendelin Böhmer...
TL;DR提出了FACMAC,一种新的协同多智能体强化学习方法,包括集中式但分解的评论家和集中式政策梯度估计器等特点,并在多智能体粒子环境,一个新的多智能体MuJoCo基准和具有挑战性的StarCraft II微管理任务上进行了评估,取得了优于MADDPG和其他基线的实证结果。