Nov, 2023

QFree:多智能体强化学习的通用价值函数因子分解

TL;DR我们提出了一种 MARL 的通用价值函数分解方法 QFree,它基于优势函数开发了 IGM 原则的数学等价条件,并使用更具表达能力的混合网络结构来满足等价分解。通过在 MARL 算法的策略评估过程中将等价条件作为正则化项开发了一种新型损失函数。我们在非单调矩阵博弈场景和 Starcraft Multi-Agent Challenge (SMAC) 等复杂 MARL 基准环境中验证了该方法的有效性,并展示了其在性能方面达到了最新水平。