Oct, 2020

多智能体强化学习中的图卷积值分解

TL;DR该论文提出了一种新颖的基于图神经网络的多智能体深度强化学习价值函数分解框架,包括目标团队代理作为一组完整有向图的节点、采用注意机制进行边权重控制、推出混合 GNN 模块用于把团队状态 - 动作价值函数分解为单独智能体的观测 - 动作价值函数、显式接受损失分配。该方法称为 GraphMIX,能够优于当前最先进方法,可用于 StarCraft II 多智能体挑战基准测试中,同时能够改善智能体性能并使其适应更高数量和 / 或操作的不匹配测试情景。