Mar, 2018

QMIX: 深度多智能体强化学习的单调价值函数分解

TL;DRQMIX 是一种基于价值的方法,可以在中央化端到端方式下训练去中心化策略,其在 StarCraft II 微管理任务中表现良好并优于现有的基于价值的多智能体强化学习方法。