Jan, 2022

基于时间的代理注意力机制的剧集化多智能体强化学习中的奖励再分配

TL;DR本文提出了一种称为 AREL 的多智能体强化学习技术,它使用注意机制来解决多智能体强化学习中的两大挑战:时间分配和智能体关注。AREL 可以预测密集的重新分配奖励,并可与任何给定的多智能体强化学习算法集成。在实验中,AREL 相比其他三种最先进的奖励重新分配方法,在 Particle World 任务中产生了更高的奖励,并在 StarCraft 中提高了赢率。