Feb, 2024

FM3Q:分解的多智能体最小最大 Q 学习用于双队零和马尔科夫博弈

TL;DR我们提出了个体-全局-极小化(IGMM)原则,通过在2t0sMGs中的Q函数确保两队极小化行为与个体贪婪行为之间的一致性。基于此,我们提出了一种新的多智能体强化学习框架,分解多智能体极小化Q函数成个体的,并迭代求解2t0sMGs中满足IGMM条件的极小化Q函数。另外,我们提出了一种使用神经网络实现FM3Q和获得两队选手的确定性和分散极小化策略的在线学习算法,并提供了理论分析证明了FM3Q的收敛性。实验结果表明,我们使用三个环境来评估FM3Q的学习效率和最终性能,并展示了其在2t0sMGs上的优越性。