超越蒸馏：面向任务的专家混合方法实现高效推断

EMNLPSep, 2021

超越蒸馏：面向任务的专家混合方法实现高效推断

Beyond Distillation: Task-level Mixture-of-Experts for Efficient Inference

Sneha Kudugunta, Yanping Huang, Ankur Bapna, Maxim Krikun, Dmitry Lepikhin...

TL;DR该论文研究了不同粒度（令牌、句子、任务）MoE 模型中的路由策略，以绕过蒸馏。通过任务级路由（task-MoE）在 WMT 和 Web 规模数据集上进行的实验表明，我们能够从大型稀疏模型中提取更小、可部署的子网络。对于 30 种语言对，我们的 32 个专家的 task-MOE （533M 个参数）在 WMT 上的表现平均比表现最佳的令牌级 MoE 模型（token-MoE）高 1.0 BLEU。而将一个 token-MoE 蒸馏成较小的密集模型只能保留 32% 的 BLEU 收益，但通过设计，我们的子网络 task-MoE 可以保留所有收益，并且和蒸馏后的 student 模型有相同的推理成本。最后，当扩展到 200 种语言对时，我们的 128 个专家的 task-MoE（13B 个参数）表现与令牌级模型相近，并且提高了推理吞吐量 2.6 倍。

Abstract

Sparse mixture-of-experts (MoE) has been a successful approach for scaling multilingual translation models to billions of parameters without a proportional increase in training computation. However, MoE models ar

mixture-of-experts routing strategies multilingual translation distillation inference throughput

发现论文，激发创造

MoDE: 一种基于专家互相融合的混合模型

我们提出了一种叫作 Mixture-of-Distilled-Expert（MoDE）的方法，通过在专家之间应用适度的相互蒸馏，使每个专家能够掌握其他专家学习到的更多特征，从而对其原始分配的子任务有更准确的认识。我们进行了大量的实验，包括表格、自然语言处理和计算机视觉数据集，证明了 MoDE 的有效性、普适性和鲁棒性。此外，我们通过创新地构建 “专家探针” 进行了平行研究，实验性地证明了为什么 MoDE 起作用：适度的知识蒸馏可以提高每个单独专家在其所分配任务上的测试性能，从而提升 MoE 的整体性能。

Jan, 2024

基于任务的 MoE 多任务多语言机器翻译

我们设计了一种新方法，将任务信息与 Mixture-of-experts 模型结合，通过共享的动态任务适配器在不同粒度级别上将任务信息融入模型中。实验证明，相比密集和经典的 Mixture-of-experts 模型，在多任务多语言机器翻译上，我们的方法具有优势。通过任务特定的适配器，我们的模型能够高效地泛化到新任务中。

Aug, 2023

多任务多语种模型的可扩展高效 MoE 训练

采用 Mixture of Experts 模型、多维并行技术和 DeepSpeed 库支持的系统，成功训练出拥有数百万参数的高效的多语言生成模型，同时提升了模型的样本效率和推断时间效率。

Sep, 2021

LocMoE：一种用于大型语言模型训练的低开销 MoE

通过转换部分节点间通信为节点内通信的路由策略，我们提出了一种新颖的负载均衡和局部性相结合的路由策略，并在 PanGu-Sigma 模型上进行了改进，实验证明该路由策略减少了每轮训练时间约 12.68% 至 22.24%，而不影响模型的准确性。

Jan, 2024

带有专家路由选择的专家混合模型

我们提出了一种基于专家选择的异构专家混合模型，通过让专家选择前 k 个标记来分配变量数量的专家，从而提高了训练收敛速度，并在 GLUE 基准测试中取得更高的性能。

Feb, 2022

Mixture of Experts 的稳定路由策略

本文提出了一种两个阶段的 StableMoE 方法来解决现有的学习路由 Moe 方法中的路由波动问题，并通过在语言模型和多语言机器翻译上的实验验证了该方法的有效性。

Apr, 2022

面向推理最优的混合专家大语言模型

基于混合专家的大型语言模型（如最近的 Mixtral 和 DeepSeek-MoE）在规模大小上显示出巨大潜力，其训练成本不会像密集变换器那样呈二次增长。然而，我们发现增加专家的数量会导致递减收益，因此我们建议将推理效率作为模型缩放定律的指标之一，以在相同性能下提供最好的解决方案。

Apr, 2024

LocMoE+：增强型路由器具有令牌特征感知的高效 LLM 预训练

LocMoE + 是低成本的改进版本，通过量化和定义专家和令牌之间的关联性、实施全局级自适应路由策略以重新排列令牌以及重新估计专家容量的下限来解决 Mixture-of-Experts 架构中存在的问题，验证实验结果显示，每个专家处理的令牌数量可以减少超过 60%，在与通信优化相结合的情况下，训练效率平均提高了 5.4% 至 46.6%，在微调后，LocMoE + 在 GDAD、C-Eval 和 TeleQnA 数据集中的性能提高了 9.7% 至 14.1%。

May, 2024

专家稀疏混合模型的任务特定剪枝

通过逐步删除稀有的 expert，将 Mixture-of-Experts 模型缩减为单一的 dense 模型，以提高计算效率并提供较快的推理速度而保留整体性能。

Jun, 2022

OpenMoE: 开放混合专家语言模型的早期探索

为了更好地帮助开源社区了解基于混合专家的大型语言模型，我们训练并发布了一系列完全开源和可复现的仅解码器类型的混合专家语言模型，参数范围从 650M 到 34B，训练语料超过 1T 个标记。我们的调查确认了基于混合专家的大型语言模型可以提供更有利的成本效益权衡，突出了未来大型语言模型发展的潜在有效性。该研究的另一个重要贡献是对我们 OpenMoE 模型中的路由机制进行深入分析，得出了三个重要发现：上下文无关专业化、早期路由学习和朝末尾丢弃。我们发现，混合专家模型中的路由决策主要基于标记 ID，与上下文相关性较小。标记对专家的分配在预训练阶段早期确定，并且在很大程度上保持不变。这种不完美的路由可能导致性能下降，尤其是在多轮对话等顺序任务中，较后出现的标记更有可能被丢弃。最后，我们根据上述观察和分析重新思考了设计。为了促进未来的混合专家语言模型发展，我们提出了减轻发现的问题并进一步改进现成混合专家语言模型设计的潜在策略。

Jan, 2024