GRIN:梯度信息混合专家模型
采用Mixture of Experts模型、多维并行技术和DeepSpeed库支持的系统,成功训练出拥有数百万参数的高效的多语言生成模型,同时提升了模型的样本效率和推断时间效率。
Sep, 2021
本文研究了自回归 MoE 语言模型在各种设置下与密集模型的规模比较,并发现除了 fine-tuning 以外,在相同预算下 MoE 模型比密集模型更加高效。该研究表明 MoE 和密集模型在任务和领域上的推广效果不同,值得进一步研究。
Dec, 2021
本文介绍了一种通过 Mixture-of-Experts 模型架构实现的深度学习模型训练及推断方案,名为 DeepSpeed-MoE。该方案通过新颖的模型压缩技术和高度优化的推断系统,在减小模型尺寸、提高能效和降低硬件资源要求等方面都有着非常显著的表现。希望通过 Sparse MoE Models 的训练和部署,开辟更多高质量模型的新方向,减少硬件资源的需求,加速模型的落地应用。
Jan, 2022
通过指令微调稀疏专家混合模型(Flan-MoE),我们证明了在任务特定数据集上进行MoE模型的简单微调通常比相同复杂度的密集模型效果更差。本文的Flan-MoE在指令微调及指令微调后的任务特定微调实验中均优于密集模型,并在仅使用三分之一的FLOPS的情况下,超越了Flan-PaLM-62B的性能,可望引领大规模高效的语言模型设计。
May, 2023
通过分析扩展的变量范围,我们建立了适用于细粒度混合专家模型的扩展规模定律,并利用这些规律为特定计算预算推导出最佳的训练配置,结果显示Mixture of Experts模型在规模和训练预算扩大时始终优于密集Transformer模型。此外,我们证明在几乎任何计算预算下,将专家的大小设置成与前馈层相似的常见做法并不是最优的。
Feb, 2024
基于混合专家的大型语言模型(如最近的Mixtral和DeepSeek-MoE)在规模大小上显示出巨大潜力,其训练成本不会像密集变换器那样呈二次增长。然而,我们发现增加专家的数量会导致递减收益,因此我们建议将推理效率作为模型缩放定律的指标之一,以在相同性能下提供最好的解决方案。
Apr, 2024
通过采用密集计算进行训练和稀疏计算进行推理的混合密集与稀疏混合模型 (DS-MoE),在保持性能的同时实现了强大的计算和参数效率,比标准稀疏 MoE 更具参数效率,在总参数大小和性能方面与密集模型持平,而且计算成本更低。
Apr, 2024
Mixture-of-experts (MoE)的内在机制及行为特征的初步研究表明神经元如同细粒度专家,在参数和行为特征方面带来了一些有趣的观察,为MoE框架和其他模块化架构的未来研究提供了启示。
Jun, 2024
本研究解决了软专家混合模型在表示能力和专家专业化方面的缺陷。提出了一种新颖的专家专业化概念,并通过实证表明,当使用多个小专家时,该架构具有隐性偏差,从而有效地逼近专门化的专家子集。研究成果有助于提高推理过程中的计算效率。
Sep, 2024