稀疏混合器：结合 MoE 和混合来构建更高效的 BERT

May, 2022

稀疏混合器：结合 MoE 和混合来构建更高效的 BERT

Sparse Mixers: Combining MoE and Mixing to build a more efficient BERT

James Lee-Thorp, Joshua Ainslie

TL;DR本文介绍了 Sparse Mixer 模型，它结合了稀疏门控混合专家模型和线性混合变换，并在 GLUE 和 SuperGLUE 数据集上略优于 BERT 模型，同时训练时间快 65%，推理速度快 61%。该模型可以克服 MoE 模型的许多延迟和稳定性问题，为稀疏 student 模型提供了前景。

Abstract

We combine the capacity of sparsely gated mixture-of-experts (MoE) with the speed and stability of linear, mixing transformations to design the Sparse Mixer encoder model. sparse mixer slightly outperforms (<1%)

sparse mixer mixture-of-experts bert glue superglue

发现论文，激发创造

稀疏反向传播用于 MoE 训练

通过 SparseMixer 建立了稀疏计算与反向传播之间的桥梁，提供可靠的梯度估计，并加速了 Switch Transformer 的训练收敛速度。

Oct, 2023

从稀疏到软混合专家

通过软的 MoE 方法，我们可以在训练和推断成本上实现模型容量的扩展，解决了传统的 MoE 方法中存在的多个问题，在视觉识别任务中显著优于标准的 Transformers 和其他 MoE 变种，并且在模型规模扩展上也有良好的性能。

Aug, 2023

ST-MoE: 设计稳定且可转移的稀疏专家模型

本文关注自然语言处理中的训练不稳定和模型精确性问题，研究提出一种设计指南，通过将一个稀疏模型扩展到 269B 参数实现了全面的迁移学习，成为第一个在各类任务中达到最先进水平的稀疏模型 (ST-MoE-32B)。

Feb, 2022

混合专家语言模型的快速推断与卸载

通过参数卸载算法和利用 MoE LLMs 的固有属性提出一种新策略，使消费者硬件和免费 Google Colab 实例上能够运行 Mixtral-8x7B 型号的 MoE 语言模型。

Dec, 2023

密集训练，稀疏推断：重思混合专家语言模型的训练

通过采用密集计算进行训练和稀疏计算进行推理的混合密集与稀疏混合模型 (DS-MoE)，在保持性能的同时实现了强大的计算和参数效率，比标准稀疏 MoE 更具参数效率，在总参数大小和性能方面与密集模型持平，而且计算成本更低。

Apr, 2024

朝着参数效率化迈进：具有动态容量的分层稀疏激活变压器

本文提出了分层专家混合（SMoE）模型，该模型具有分层结构，可以为不同令牌分配动态容量，可用于提高机器翻译中的性能和减少参数不足问题。SMoE 在两个多语言机器翻译基准测试上表现出色，优于多个最先进的 MoE 模型。

May, 2023

SpeechMoE：使用动态路由混合专家扩展大规模声学模型

本文提出一种基于 MoE 的语音识别模型 SpeechMoE，引入稀疏 L1 损失和平均重要性损失来控制路由器激活的稀疏性和提高门值的多样性，并使用了新的路由器架构，可以同时利用共享嵌入网络的信息和不同 MoE 层的分层表示。实验结果表明，该模型在计算成本可比的情况下，相对于传统的静态网络，可以提供 7.0％-23.0％的相对 CER 改进。

May, 2021

多任务多语种模型的可扩展高效 MoE 训练

采用 Mixture of Experts 模型、多维并行技术和 DeepSpeed 库支持的系统，成功训练出拥有数百万参数的高效的多语言生成模型，同时提升了模型的样本效率和推断时间效率。

Sep, 2021

用于流式多语言 ASR 的专家混合 Conformer

提出了一种流式的、真正的多语言 Conformer 模型，其中融合了 MoE 层以提高推理效率，经在 12 种语言上评估，相对于基线获得 11.9% 的相对 WER 改进；在不使用语言信息的前提下，与使用 Ground Truth 信息的适配器模型相比，我们的 MoE 模型实现了类似的 WER 和相似数量的参数激活，并通过多语言浅层融合实现了约 3% 的相对 WER 改进。

May, 2023

基于专家混合的高效大规模语言建模

本文研究了自回归 MoE 语言模型在各种设置下与密集模型的规模比较，并发现除了 fine-tuning 以外，在相同预算下 MoE 模型比密集模型更加高效。该研究表明 MoE 和密集模型在任务和领域上的推广效果不同，值得进一步研究。

Dec, 2021