AAAIApr, 2018

多智能体软 Q 学习

TL;DR研究了在连续多智能体博弈中应用策略梯度方法时出现的相对过度泛化问题,并提出了多智能体软 Q 学习方法来解决这个问题。与现有方法 MADDPG 相比,该方法可实现更好的多智能体协作任务协调,达到联合行为空间中更好的局部最优。