ICLROct, 2021

稀疏激活 Transformer 的随机专家优化

TL;DR本文提出了一种基于随机激活专家的框架 THOR,在一致性正则化损失约束下训练不同的专家,该框架在各种设置下比 Transformer 和 Mixture-of-Experts 更加参数有效,如多语言翻译中比 Switch Transformer 的 BLEU 分数高 2 个分数,并获得了 18 倍大的最先进 Mixture-of-Experts 模型相同的 BLEU 分数。