Flan-MoE：基于稀疏专家混合的指令微调语言模型的扩展

May, 2023

Flan-MoE：基于稀疏专家混合的指令微调语言模型的扩展

Flan-MoE: Scaling Instruction-Finetuned Language Models with Sparse Mixture of Experts

Sheng Shen, Le Hou, Yanqi Zhou, Nan Du, Shayne Longpre...

TL;DR通过指令微调稀疏专家混合模型(Flan-MoE)，我们证明了在任务特定数据集上进行MoE模型的简单微调通常比相同复杂度的密集模型效果更差。本文的Flan-MoE在指令微调及指令微调后的任务特定微调实验中均优于密集模型，并在仅使用三分之一的FLOPS的情况下，超越了Flan-PaLM-62B的性能，可望引领大规模高效的语言模型设计。

Abstract

The explosive growth of language models and their applications have led to an increased demand for efficient and scalable methods. In this paper, we introduce flan-moe, a set of →

发现论文，激发创造

精调语言模型是零-shot学习器

通过对自然语言指令模板中的60个自然语言处理任务进行调整，我们将一个137B预训练语言模型调整为FLAN并在未看见的任务数据上进行评估，结果表明，通过指令调整，可以大大改善它在未看见任务上的性能并在20个任务上超越了175B GPT-3的零样本性能。

Sep, 2021

多任务多语种模型的可扩展高效MoE训练

采用Mixture of Experts模型、多维并行技术和DeepSpeed库支持的系统，成功训练出拥有数百万参数的高效的多语言生成模型，同时提升了模型的样本效率和推断时间效率。

Sep, 2021

基于专家混合的高效大规模语言建模

本文研究了自回归 MoE 语言模型在各种设置下与密集模型的规模比较，并发现除了 fine-tuning 以外，在相同预算下 MoE 模型比密集模型更加高效。该研究表明 MoE 和密集模型在任务和领域上的推广效果不同，值得进一步研究。

Dec, 2021

指令微调语言模型的扩展

本文研究了在指令集合中对语言模型进行微调以改善其性能及推广其应用的方法，重点探讨了任务规模的扩展、模型大小的扩展和链式推理数据的微调，发现通过上述方面的微调显著提高了包括 PaLM、T5、U-PaLM 在内的各种模型类别，在零样本、少样本和 CoT 环境中的表现，以及在多项基准测试中的表现。

Oct, 2022

大型语言模型预训练中稀疏前馈网络的统一视角

本文分析了S-FFN这种大而稀疏的前馈网络的两个主要设计选择：内存块（或专家）大小和内存块选择方法，并提供了它们相对有效性和效率的见解。在语言建模前训练中，我们发现一种更简单的选择方法——Avg-K，通过均值聚合隐藏状态选择块，可以比现有的MoE架构实现更低的困惑度。

May, 2023

细粒度专家混合的比例尺定律

通过分析扩展的变量范围，我们建立了适用于细粒度混合专家模型的扩展规模定律，并利用这些规律为特定计算预算推导出最佳的训练配置，结果显示Mixture of Experts模型在规模和训练预算扩大时始终优于密集Transformer模型。此外，我们证明在几乎任何计算预算下，将专家的大小设置成与前馈层相似的常见做法并不是最优的。

Feb, 2024

面向推理最优的混合专家大语言模型

基于混合专家的大型语言模型（如最近的Mixtral和DeepSeek-MoE）在规模大小上显示出巨大潜力，其训练成本不会像密集变换器那样呈二次增长。然而，我们发现增加专家的数量会导致递减收益，因此我们建议将推理效率作为模型缩放定律的指标之一，以在相同性能下提供最好的解决方案。

Apr, 2024

密集训练，稀疏推断：重思混合专家语言模型的训练

通过采用密集计算进行训练和稀疏计算进行推理的混合密集与稀疏混合模型 (DS-MoE)，在保持性能的同时实现了强大的计算和参数效率，比标准稀疏 MoE 更具参数效率，在总参数大小和性能方面与密集模型持平，而且计算成本更低。

Apr, 2024

大型语言模型中混合专家的更深入研究

Mixture-of-experts (MoE)的内在机制及行为特征的初步研究表明神经元如同细粒度专家，在参数和行为特征方面带来了一些有趣的观察，为MoE框架和其他模块化架构的未来研究提供了启示。

Jun, 2024

稀疏混合专家下的任务不可知剪枝中的专家知识多样化

通过将模型参数增加但在执行任务时仅激活其中一部分，混合专家（MoE）架构明显提高了大型语言模型（LLMs）的性能而不增加推理成本。然而，由于专家数量增加而导致的内存消耗对于这些模型在实际应用中的部署构成了挑战。我们的经验研究发现，一些专家在预训练期间编码了冗余的知识。因此，我们提出了一种将相似专家分组并修剪以提高模型参数效率的方法。我们通过修剪Mixtral-8x7B和Mixtral-8x22B两个最先进的MoE模型来验证我们方法的有效性。评估结果显示，我们的方法在各种自然语言任务上优于其他模型修剪方法。为了便于未来研究，我们将发布我们的代码和修剪过的MoE模型。

Jul, 2024