AAAIDec, 2020

QVMix 和 QVMix-Max:将深度质量 - 值算法扩展到合作多智能体强化学习

TL;DR本文介绍了四种新算法:IQV,IQV-Max,QVMix 和 QVMix-Max,用于解决协作环境下发生的多智能体强化学习(MARL)问题。作者比较了这些算法和现有的 MARL 技术,并表明 QVMix 在测试环境中表现最佳,其优于其他算法的原因在于其 $Q$ 函数的过高估计偏见相对较低。