AAAIDec, 2020
QVMix 和 QVMix-Max:将深度质量 - 值算法扩展到合作多智能体强化学习
QVMix and QVMix-Max: Extending the Deep Quality-Value Family of Algorithms to Cooperative Multi-Agent Reinforcement Learning
Pascal Leroy, Damien Ernst, Pierre Geurts, Gilles Louppe, Jonathan Pisane...
TL;DR本文介绍了四种新算法:IQV,IQV-Max,QVMix 和 QVMix-Max,用于解决协作环境下发生的多智能体强化学习(MARL)问题。作者比较了这些算法和现有的 MARL 技术,并表明 QVMix 在测试环境中表现最佳,其优于其他算法的原因在于其 $Q$ 函数的过高估计偏见相对较低。