Oct, 2020

通过奖励归因分解进行多智能体协作

TL;DR本文提出了一种名为 Collaborative Q-learning (CollaQ) 的多智能体协作强化学习算法,它利用 Multi-Agent Reward Attribution (MARA) loss 进行训练并在 StarCraft 多智能体挑战中表现出色,尤其支持 ad hoc 团队玩法。该算法能将每个智能体的 Q 函数分解为自表达项和交互项,并在无需重新训练 / 微调的情况下,显著提高 SoTA 超过 30%。