EMNLPSep, 2021

超越蒸馏:面向任务的专家混合方法实现高效推断

TL;DR该论文研究了不同粒度(令牌、句子、任务)MoE 模型中的路由策略,以绕过蒸馏。通过任务级路由(task-MoE)在 WMT 和 Web 规模数据集上进行的实验表明,我们能够从大型稀疏模型中提取更小、可部署的子网络。对于 30 种语言对,我们的 32 个专家的 task-MOE (533M 个参数)在 WMT 上的表现平均比表现最佳的令牌级 MoE 模型(token-MoE)高 1.0 BLEU。而将一个 token-MoE 蒸馏成较小的密集模型只能保留 32% 的 BLEU 收益,但通过设计,我们的子网络 task-MoE 可以保留所有收益,并且和蒸馏后的 student 模型有相同的推理成本。最后,当扩展到 200 种语言对时,我们的 128 个专家的 task-MoE(13B 个参数)表现与令牌级模型相近,并且提高了推理吞吐量 2.6 倍。