ICMLMar, 2020
深度多智能体强化学习的单调价值函数分解
Monotonic Value Function Factorisation for Deep Multi-Agent Reinforcement Learning
Tabish Rashid, Mikayel Samvelyan, Christian Schroeder de Witt, Gregory Farquhar, Jakob Foerster...
TL;DRQMIX 是一种新的价值方法,可以在集中端到端的方式下训练分散的策略,通过使用混合网络来估计联合行动价值,并通过混合网络中的非负权重和每个代理价值的单调组合来保证中心化和分散策略之间的一致性,并在 StarCraft 多智能体挑战赛(SMAC)中获得了显著的优越性。