May, 2024

POWQMIX:加权值分解与潜在最优联合行动识别的合作多智能体强化学习

TL;DR通过引入 Potentially Optimal joint actions Weighted QMIX (POWQMIX) 算法,赋予潜在最优联合动作更高损失权重,我们能够在训练中恢复最优策略,并在矩阵游戏、捕食者 - 猎物和星际争霸 II 等多智能体环境中实验证明我们的算法优于现有的基于值函数的多智能体强化学习方法。