Mar, 2020
FACMAC: 分解多智能体集中策略梯度
FACMAC: Factored Multi-Agent Centralised Policy Gradients
Bei Peng, Tabish Rashid, Christian A. Schroeder de Witt, Pierre-Alexandre Kamienny, Philip H. S. Torr...
TL;DR提出了 FACMAC,一种新的协同多智能体强化学习方法,包括集中式但分解的评论家和集中式政策梯度估计器等特点,并在多智能体粒子环境,一个新的多智能体 MuJoCo 基准和具有挑战性的 StarCraft II 微管理任务上进行了评估,取得了优于 MADDPG 和其他基线的实证结果。