稀疏反向传播用于 MoE 训练
本文介绍了 Sparse Mixer 模型,它结合了稀疏门控混合专家模型和线性混合变换,并在 GLUE 和 SuperGLUE 数据集上略优于 BERT 模型,同时训练时间快 65%,推理速度快 61%。该模型可以克服 MoE 模型的许多延迟和稳定性问题,为稀疏 student 模型提供了前景。
May, 2022
通过软的 MoE 方法,我们可以在训练和推断成本上实现模型容量的扩展,解决了传统的 MoE 方法中存在的多个问题,在视觉识别任务中显著优于标准的 Transformers 和其他 MoE 变种,并且在模型规模扩展上也有良好的性能。
Aug, 2023
本文关注自然语言处理中的训练不稳定和模型精确性问题,研究提出一种设计指南,通过将一个稀疏模型扩展到 269B 参数实现了全面的迁移学习,成为第一个在各类任务中达到最先进水平的稀疏模型 (ST-MoE-32B)。
Feb, 2022
本文提出一种基于 MoE 的语音识别模型 SpeechMoE,引入稀疏 L1 损失和平均重要性损失来控制路由器激活的稀疏性和提高门值的多样性,并使用了新的路由器架构,可以同时利用共享嵌入网络的信息和不同 MoE 层的分层表示。实验结果表明,该模型在计算成本可比的情况下,相对于传统的静态网络,可以提供 7.0%-23.0%的相对 CER 改进。
May, 2021
在这篇论文中,我们探索了稀疏专家混合模型(Sparse MoE)在各种关键因素下的泛化误差,并从经典学习理论的角度提供了如何使用稀疏性来提高混合模型泛化性能的见解。
Mar, 2024
本研究提出了 Mixture of Expert Clusters 模型,通过在路由阶段引入基于方差的约束来促进专家层学习更多不同和适当的知识,并提出了一种专家集群结构的集群级别专家丢失策略。实验证明,该模型可以提高机器翻译和自然语言理解任务的性能,并在有限数据条件下扩展专家的性能上限,对缓解过度拟合和稀疏数据分配问题起到积极作用。
Jul, 2022
本文介绍了一种名为 Vision MoE 的稀疏版本的 Vision Transformer,在图像识别方面表现出色且需要的计算量较少。此外,本文还提出了一种路由算法的扩展来优化每个输入的处理,最终通过训练一个达到 153 亿参数的模型,V-MoE 成功实现了高度可扩展的视觉建模。
Jun, 2021
通过逐步删除稀有的 expert,将 Mixture-of-Experts 模型缩减为单一的 dense 模型,以提高计算效率并提供较快的推理速度而保留整体性能。
Jun, 2022
通过采用密集计算进行训练和稀疏计算进行推理的混合密集与稀疏混合模型 (DS-MoE),在保持性能的同时实现了强大的计算和参数效率,比标准稀疏 MoE 更具参数效率,在总参数大小和性能方面与密集模型持平,而且计算成本更低。
Apr, 2024