Aug, 2023

从稀疏到软混合专家

TL;DR通过软的 MoE 方法,我们可以在训练和推断成本上实现模型容量的扩展,解决了传统的 MoE 方法中存在的多个问题,在视觉识别任务中显著优于标准的 Transformers 和其他 MoE 变种,并且在模型规模扩展上也有良好的性能。