Apr, 2023

STAS: 多智能体强化学习的时空回报分解

TL;DR提出了一种名为Spatial-Temporal Attention with Shapley(STAS)的新方法,该方法可以在时间和空间维度上学习信用分配,在多智能体强化学习中实现有效的空间 - 时间信用分配,优于所有现有的基线。