Switch Transformers: 使用简单高效的稀疏性扩展至万亿级参数模型

Jan, 2021

Switch Transformers: 使用简单高效的稀疏性扩展至万亿级参数模型

Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity

William Fedus, Barret Zoph, Noam Shazeer

TL;DR通过 Switch Transformer 和降低精度格式，本文展示了如何简化 MoE 路由算法，降低信息交流和计算成本，以及解决训练不稳定问题，并在多语言领域提高了预训练速度并推动了现有语言模型的规模扩大，以 trillion 参数为例，实现了超过 4 倍的速度提升。

Abstract

In deep learning, models typically reuse the same parameters for all inputs. mixture of experts (MoE) defies this and instead selects different parameters for each incoming example. The result is a sparsely-activ

deep learning mixture of experts switch transformer language models multilingual settings

发现论文，激发创造

ST-MoE: 设计稳定且可转移的稀疏专家模型

本文关注自然语言处理中的训练不稳定和模型精确性问题，研究提出一种设计指南，通过将一个稀疏模型扩展到 269B 参数实现了全面的迁移学习，成为第一个在各类任务中达到最先进水平的稀疏模型 (ST-MoE-32B)。

Feb, 2022

QMoE：万亿参数模型的实用次比特压缩

此研究论文介绍了一种名为 QMoE 的新的压缩和执行框架，通过可扩展的算法和 GPU 解码内核，将 1.6 万亿参数的 SwitchTransformer-c2048 模型压缩至不到 160GB（即 20 倍压缩，每个参数 0.8 个比特），在单个 GPU 上只需不到一天的时间，以较少的准确性损失实现了对廉价服务器（如 4x NVIDIA A6000 或 8x NVIDIA 3090 GPU）上的万亿参数模型的执行，并相对于理想的未压缩推理只有不到 5% 的运行时开销。

Oct, 2023

M6-T：探索稀疏专家模型及其进展

本文研究了稀疏专家模型中的关键因素，提出了专家原型法以改善模型质量，同时将模型规模扩大到 1 万亿参数，实现了与 TPU 相同的加速。

May, 2021

多任务多语种模型的可扩展高效 MoE 训练

采用 Mixture of Experts 模型、多维并行技术和 DeepSpeed 库支持的系统，成功训练出拥有数百万参数的高效的多语言生成模型，同时提升了模型的样本效率和推断时间效率。

Sep, 2021

朝着参数效率化迈进：具有动态容量的分层稀疏激活变压器

本文提出了分层专家混合（SMoE）模型，该模型具有分层结构，可以为不同令牌分配动态容量，可用于提高机器翻译中的性能和减少参数不足问题。SMoE 在两个多语言机器翻译基准测试上表现出色，优于多个最先进的 MoE 模型。

May, 2023

SpeechMoE：使用动态路由混合专家扩展大规模声学模型

本文提出一种基于 MoE 的语音识别模型 SpeechMoE，引入稀疏 L1 损失和平均重要性损失来控制路由器激活的稀疏性和提高门值的多样性，并使用了新的路由器架构，可以同时利用共享嵌入网络的信息和不同 MoE 层的分层表示。实验结果表明，该模型在计算成本可比的情况下，相对于传统的静态网络，可以提供 7.0％-23.0％的相对 CER 改进。

May, 2021

从稀疏到软混合专家

通过软的 MoE 方法，我们可以在训练和推断成本上实现模型容量的扩展，解决了传统的 MoE 方法中存在的多个问题，在视觉识别任务中显著优于标准的 Transformers 和其他 MoE 变种，并且在模型规模扩展上也有良好的性能。

Aug, 2023

谁说大象不能奔跑：将大规模 MoE 模型引入云计算生产环境

通过量化权重和优化方法加速计算和减少模型大小，实现了高效的 Inference 模型，使得大规模混合专家 (Mixture of Experts) 变压器模型的部署成为可能。

Nov, 2022

U2++ 模型：以最小对 RTF 影响的方式扩展 4.7 倍参数

通过学习仅激活训练和推理中的一部分参数，混合专家 (MoE) 被提出作为一种高效能的能源路径，用于更大、更强大的语言模型。本文通过将 MoE 层替代所有前馈网络 (FFN) 层，展示了一个简单有效的 ASR 模型，并基于统一的双向注意解码器 (U2++) 实现了流式和非流式解码模式。我们希望本研究能促进无损耗部署的语音基础模型的扩展研究。

Apr, 2024

稀疏激活 Transformer 的随机专家优化

本文提出了一种基于随机激活专家的框架 THOR，在一致性正则化损失约束下训练不同的专家，该框架在各种设置下比 Transformer 和 Mixture-of-Experts 更加参数有效，如多语言翻译中比 Switch Transformer 的 BLEU 分数高 2 个分数，并获得了 18 倍大的最先进 Mixture-of-Experts 模型相同的 BLEU 分数。

Oct, 2021