ICMLMar, 2020

深度多智能体强化学习的单调价值函数分解

TL;DRQMIX 是一种新的价值方法,可以在集中端到端的方式下训练分散的策略,通过使用混合网络来估计联合行动价值,并通过混合网络中的非负权重和每个代理价值的单调组合来保证中心化和分散策略之间的一致性,并在 StarCraft 多智能体挑战赛(SMAC)中获得了显著的优越性。