Mar, 2020

FACMAC: 分解多智能体集中策略梯度

TL;DR提出了FACMAC,一种新的协同多智能体强化学习方法,包括集中式但分解的评论家和集中式政策梯度估计器等特点,并在多智能体粒子环境,一个新的多智能体MuJoCo基准和具有挑战性的StarCraft II微管理任务上进行了评估,取得了优于MADDPG和其他基线的实证结果。