GRIN：梯度信息混合专家模型

Sep, 2024

GRIN: GRadient-INformed MoE

Liyuan Liu, Young Jin Kim, Shuohang Wang, Chen Liang, Yelong Shen...

TL;DR本研究解决了混合专家模型（MoE）在稀疏计算中面临的传统训练挑战，提出了GRIN（梯度信息混合专家训练），通过稀疏梯度估计改进专家路由。结果表明，GRIN显著提升了MoE的有效性，其在语言建模任务中的性能超过了同数据集下的7B稠密模型，展现出极大的应用潜力。

Abstract

Mixture-of-Experts (MoE) models scale more effectively than dense models due to sparse computation through expert routing, selectively activating only a small subset of expert modules. However, sparse computation challenges traditional training practices, as discrete expert routing hin

发现论文，激发创造

多任务多语种模型的可扩展高效MoE训练

采用Mixture of Experts模型、多维并行技术和DeepSpeed库支持的系统，成功训练出拥有数百万参数的高效的多语言生成模型，同时提升了模型的样本效率和推断时间效率。

Sep, 2021

基于专家混合的高效大规模语言建模

本文研究了自回归 MoE 语言模型在各种设置下与密集模型的规模比较，并发现除了 fine-tuning 以外，在相同预算下 MoE 模型比密集模型更加高效。该研究表明 MoE 和密集模型在任务和领域上的推广效果不同，值得进一步研究。

Dec, 2021

DeepSpeed-MoE: 推动混合专家推理和训练以推动下一代AI规模

本文介绍了一种通过 Mixture-of-Experts 模型架构实现的深度学习模型训练及推断方案，名为 DeepSpeed-MoE。该方案通过新颖的模型压缩技术和高度优化的推断系统，在减小模型尺寸、提高能效和降低硬件资源要求等方面都有着非常显著的表现。希望通过 Sparse MoE Models 的训练和部署，开辟更多高质量模型的新方向，减少硬件资源的需求，加速模型的落地应用。

Jan, 2022

Flan-MoE：基于稀疏专家混合的指令微调语言模型的扩展

通过指令微调稀疏专家混合模型(Flan-MoE)，我们证明了在任务特定数据集上进行MoE模型的简单微调通常比相同复杂度的密集模型效果更差。本文的Flan-MoE在指令微调及指令微调后的任务特定微调实验中均优于密集模型，并在仅使用三分之一的FLOPS的情况下，超越了Flan-PaLM-62B的性能，可望引领大规模高效的语言模型设计。

May, 2023

稀疏反向传播用于 MoE 训练

通过SparseMixer建立了稀疏计算与反向传播之间的桥梁，提供可靠的梯度估计，并加速了Switch Transformer的训练收敛速度。

Oct, 2023

细粒度专家混合的比例尺定律

通过分析扩展的变量范围，我们建立了适用于细粒度混合专家模型的扩展规模定律，并利用这些规律为特定计算预算推导出最佳的训练配置，结果显示Mixture of Experts模型在规模和训练预算扩大时始终优于密集Transformer模型。此外，我们证明在几乎任何计算预算下，将专家的大小设置成与前馈层相似的常见做法并不是最优的。

Feb, 2024

面向推理最优的混合专家大语言模型

基于混合专家的大型语言模型（如最近的Mixtral和DeepSeek-MoE）在规模大小上显示出巨大潜力，其训练成本不会像密集变换器那样呈二次增长。然而，我们发现增加专家的数量会导致递减收益，因此我们建议将推理效率作为模型缩放定律的指标之一，以在相同性能下提供最好的解决方案。

Apr, 2024

密集训练，稀疏推断：重思混合专家语言模型的训练

通过采用密集计算进行训练和稀疏计算进行推理的混合密集与稀疏混合模型 (DS-MoE)，在保持性能的同时实现了强大的计算和参数效率，比标准稀疏 MoE 更具参数效率，在总参数大小和性能方面与密集模型持平，而且计算成本更低。

Apr, 2024

大型语言模型中混合专家的更深入研究

Mixture-of-experts (MoE)的内在机制及行为特征的初步研究表明神经元如同细粒度专家，在参数和行为特征方面带来了一些有趣的观察，为MoE框架和其他模块化架构的未来研究提供了启示。

Jun, 2024

超越参数计数：软专家混合中的隐性偏差

本研究解决了软专家混合模型在表示能力和专家专业化方面的缺陷。提出了一种新颖的专家专业化概念，并通过实证表明，当使用多个小专家时，该架构具有隐性偏差，从而有效地逼近专门化的专家子集。研究成果有助于提高推理过程中的计算效率。

Sep, 2024