Feb, 2022

深度合作多智能体强化学习中的价值分解算法理解

TL;DR本文研究了多智能体强化学习中的值函数分解方法在协作游戏中的适用情况、算法的收敛性质、深度神经网络的表示法及其应用,进一步提出了分解型协作游戏的概念,并理论证明了分解型协作游戏中多智能体适应 Q - 迭代算法(MA-FQI)可以导致最优 Q 函数。