AAAIJul, 2020

价值分解的多智能体演员 - 评论家模型

TL;DR在多智能体强化学习中,QMIX 使用非负函数逼近器表示联合动作价值,并在 StarCraft II 微观管理任务中取得了迄今最好的性能。然而,我们的实验表明,在某些情况下,QMIX 与 A2C 不兼容。为了在培训效率和算法性能之间获得合理的折衷,我们将价值分解扩展到与 A2C 兼容的演员临界值,并提出了一种新的演员临界值框架,即价值分解演员临界值(VDACs)。我们在 StarCraft II 微观管理任务测试平台上评估 VDACs,并证明所提出的框架改进了其他演员临界值方法的中位性能。此外,我们使用一组消融实验来确定对 VDACs 的性能做出贡献的关键因素。