Jan, 2021

UPDeT:基于 Transformer 的策略解耦通用多智能体强化学习

TL;DR本文提出了一种称为 Universal Policy Decoupling Transformer (UPDeT) 的 transformer-based 模型,可插入任何多智能体强化学习管道并具备强大的泛化能力,证明了相对于现有方法具有优异的迁移能力,在大规模 SMAC 多智能体竞争游戏中取得了显著的表现和训练速度(快 10 倍)。