BAM!就是这样:混合专家的简单高效参数重用
采用Mixture of Experts模型、多维并行技术和DeepSpeed库支持的系统,成功训练出拥有数百万参数的高效的多语言生成模型,同时提升了模型的样本效率和推断时间效率。
Sep, 2021
该论文研究了不同粒度(令牌、句子、任务)MoE模型中的路由策略,以绕过蒸馏。通过任务级路由(task-MoE)在WMT和Web规模数据集上进行的实验表明,我们能够从大型稀疏模型中提取更小、可部署的子网络。对于30种语言对,我们的32个专家的task-MOE (533M个参数)在WMT上的表现平均比表现最佳的令牌级MoE模型(token-MoE)高1.0 BLEU。而将一个token-MoE蒸馏成较小的密集模型只能保留32%的BLEU收益,但通过设计,我们的子网络task-MoE可以保留所有收益,并且和蒸馏后的student模型有相同的推理成本。最后,当扩展到200种语言对时,我们的128个专家的task-MoE(13B个参数)表现与令牌级模型相近,并且提高了推理吞吐量2.6倍。
Sep, 2021
通过分析扩展的变量范围,我们建立了适用于细粒度混合专家模型的扩展规模定律,并利用这些规律为特定计算预算推导出最佳的训练配置,结果显示Mixture of Experts模型在规模和训练预算扩大时始终优于密集Transformer模型。此外,我们证明在几乎任何计算预算下,将专家的大小设置成与前馈层相似的常见做法并不是最优的。
Feb, 2024
通过引入插拔式专家级稀疏化技术,本文主要针对MoE LLMs的部署效率进行了改进,提出了任务无关和任务特定的专家修剪和跳过方法,从而同时减小模型大小、增加推理速度并保持满意的性能。
Feb, 2024
基于混合专家的大型语言模型(如最近的Mixtral和DeepSeek-MoE)在规模大小上显示出巨大潜力,其训练成本不会像密集变换器那样呈二次增长。然而,我们发现增加专家的数量会导致递减收益,因此我们建议将推理效率作为模型缩放定律的指标之一,以在相同性能下提供最好的解决方案。
Apr, 2024
通过从现有的大型语言模型构建混合专家(MoE)模型,我们提出了一种从头开始训练在大规模环境下仍面临数据需求和不稳定性问题的MoE的方法。我们综合探索了不同的专家构建方法和各种数据采样策略,最终生成的LLaMA-MoE模型能够保持语言能力并将输入标记路由到具体的专家。经验证明,在训练200B标记后,LLaMA-MoE-3.5B模型在含有相似激活参数的密集模型上表现出显著优势。
Jun, 2024
Mixture-of-experts (MoE)的内在机制及行为特征的初步研究表明神经元如同细粒度专家,在参数和行为特征方面带来了一些有趣的观察,为MoE框架和其他模块化架构的未来研究提供了启示。
Jun, 2024
大型语言模型(LLMs)通过其巨大的模型规模、丰富多样的数据集和庞大的计算能力的训练,获得了在自然语言处理、计算机视觉等领域的前所未有的进展。混合专家(MoE)作为一种有效的方法,以最小计算开销显著扩展模型容量,受到学术界和行业的广泛关注。本调查旨在弥补对MoE文献缺乏系统全面综述的空白,为研究人员深入探讨MoE的复杂性提供重要资源。我们首先简要介绍MoE层的结构,然后提出了新的MoE分类法。接下来,我们概述了各种MoE模型的核心设计,包括算法和系统方面,以及可用的开源实现、超参数配置和实证评估的集合。此外,我们还勾画了MoE在实践中的多方面应用,并概述了一些未来研究的潜在方向。为促进MoE研究中最新进展的持续更新和共享,我们创建了一个资源存储库,可访问此https网址。
Jun, 2024
通过将模型参数增加但在执行任务时仅激活其中一部分,混合专家(MoE)架构明显提高了大型语言模型(LLMs)的性能而不增加推理成本。然而,由于专家数量增加而导致的内存消耗对于这些模型在实际应用中的部署构成了挑战。我们的经验研究发现,一些专家在预训练期间编码了冗余的知识。因此,我们提出了一种将相似专家分组并修剪以提高模型参数效率的方法。我们通过修剪Mixtral-8x7B和Mixtral-8x22B两个最先进的MoE模型来验证我们方法的有效性。评估结果显示,我们的方法在各种自然语言任务上优于其他模型修剪方法。为了便于未来研究,我们将发布我们的代码和修剪过的MoE模型。
Jul, 2024
本研究针对混合专家(MoE)框架在大规模训练中的高成本问题,提出了一种新方法BAM(Branch-Attend-Mix)。该方法不仅利用专家的前馈网络(FFN)初始化MoE层,还充分利用关注参数,提高了模型的性能和推理效率。实验结果表明,BAM在相同计算和数据约束下,超越了现有基线模型。
Aug, 2024