稀疏反向传播用于 MoE 训练

Oct, 2023

Sparse Backpropagation for MoE Training

Liyuan Liu, Jianfeng Gao, Weizhu Chen

TL;DR通过 SparseMixer 建立了稀疏计算与反向传播之间的桥梁，提供可靠的梯度估计，并加速了 Switch Transformer 的训练收敛速度。

Abstract

One defining characteristic of Mixture-of-Expert (MoE) models is their capacity for conducting sparse computation via expert routing, leading to remarkable scalability. However, backpropagation, the cornerstone o

mixture-of-expert models sparse computation backpropagation gradient computations sparsemixer

发现论文，激发创造

稀疏混合器：结合 MoE 和混合来构建更高效的 BERT

本文介绍了 Sparse Mixer 模型，它结合了稀疏门控混合专家模型和线性混合变换，并在 GLUE 和 SuperGLUE 数据集上略优于 BERT 模型，同时训练时间快 65%，推理速度快 61%。该模型可以克服 MoE 模型的许多延迟和稳定性问题，为稀疏 student 模型提供了前景。

May, 2022

从稀疏到软混合专家

通过软的 MoE 方法，我们可以在训练和推断成本上实现模型容量的扩展，解决了传统的 MoE 方法中存在的多个问题，在视觉识别任务中显著优于标准的 Transformers 和其他 MoE 变种，并且在模型规模扩展上也有良好的性能。

Aug, 2023

ST-MoE: 设计稳定且可转移的稀疏专家模型

本文关注自然语言处理中的训练不稳定和模型精确性问题，研究提出一种设计指南，通过将一个稀疏模型扩展到 269B 参数实现了全面的迁移学习，成为第一个在各类任务中达到最先进水平的稀疏模型 (ST-MoE-32B)。

Feb, 2022

SpeechMoE：使用动态路由混合专家扩展大规模声学模型

本文提出一种基于 MoE 的语音识别模型 SpeechMoE，引入稀疏 L1 损失和平均重要性损失来控制路由器激活的稀疏性和提高门值的多样性，并使用了新的路由器架构，可以同时利用共享嵌入网络的信息和不同 MoE 层的分层表示。实验结果表明，该模型在计算成本可比的情况下，相对于传统的静态网络，可以提供 7.0％-23.0％的相对 CER 改进。

May, 2021

稠密专家混合模型的泛化误差分析：初步研究

在这篇论文中，我们探索了稀疏专家混合模型（Sparse MoE）在各种关键因素下的泛化误差，并从经典学习理论的角度提供了如何使用稀疏性来提高混合模型泛化性能的见解。

Mar, 2024

MoEC: 专家混合聚类

本研究提出了 Mixture of Expert Clusters 模型，通过在路由阶段引入基于方差的约束来促进专家层学习更多不同和适当的知识，并提出了一种专家集群结构的集群级别专家丢失策略。实验证明，该模型可以提高机器翻译和自然语言理解任务的性能，并在有限数据条件下扩展专家的性能上限，对缓解过度拟合和稀疏数据分配问题起到积极作用。

Jul, 2022

稀疏专家混合模型的视觉扩展

本文介绍了一种名为 Vision MoE 的稀疏版本的 Vision Transformer，在图像识别方面表现出色且需要的计算量较少。此外，本文还提出了一种路由算法的扩展来优化每个输入的处理，最终通过训练一个达到 153 亿参数的模型，V-MoE 成功实现了高度可扩展的视觉建模。

Jun, 2021

M6-T：探索稀疏专家模型及其进展

本文研究了稀疏专家模型中的关键因素，提出了专家原型法以改善模型质量，同时将模型规模扩大到 1 万亿参数，实现了与 TPU 相同的加速。

May, 2021

专家稀疏混合模型的任务特定剪枝

通过逐步删除稀有的 expert，将 Mixture-of-Experts 模型缩减为单一的 dense 模型，以提高计算效率并提供较快的推理速度而保留整体性能。

Jun, 2022

密集训练，稀疏推断：重思混合专家语言模型的训练

通过采用密集计算进行训练和稀疏计算进行推理的混合密集与稀疏混合模型 (DS-MoE)，在保持性能的同时实现了强大的计算和参数效率，比标准稀疏 MoE 更具参数效率，在总参数大小和性能方面与密集模型持平，而且计算成本更低。

Apr, 2024