HMoE：用于语言建模的异构专家混合模型

Aug, 2024

HMoE：用于语言建模的异构专家混合模型

HMoE: Heterogeneous Mixture of Experts for Language Modeling

An Wang, Xingwu Sun, Ruobing Xie, Shuaipeng Li, Jiaqi Zhu...

TL;DR本研究针对传统同质专家模型在处理复杂输入数据时的局限性，提出了一种新颖的异构专家混合模型HMoE，使专家具备不同规模和能力，从而提高了对不同复杂度标记的处理效率。此外，提出的新训练目标促进了小规模专家的频繁激活，从而提升了计算效率和参数利用率。实验结果表明，HMoE在多项预训练评估基准测试中表现优于传统模型，且损失更低、激活参数更少。

Abstract

Mixture of Experts (MoE) offers remarkable performance and Computational Efficiency by selectively activating subsets of model parameters. Traditionally, MoE models use homogeneous experts, each with identical capacity. However, varying complexity in input data necessitates experts wit

发现论文，激发创造

基于专家混合的高效大规模语言建模

本文研究了自回归 MoE 语言模型在各种设置下与密集模型的规模比较，并发现除了 fine-tuning 以外，在相同预算下 MoE 模型比密集模型更加高效。该研究表明 MoE 和密集模型在任务和领域上的推广效果不同，值得进一步研究。

Dec, 2021

通过正交优化器来丰富语言模型的专家混合表示

通过提出正交专家优化器（OMoE）和交替训练策略，我们解决了混合专家（MoE）模型中的同质表示问题，显著提高了在GLUE基准、SuperGLUE基准、问答任务和命名实体识别任务上微调MoE模型的性能。

Oct, 2023

DeepSeekMoE: 迈向极致专业化的混合专家语言模型

在大型语言模型的时代，混合专家模型(MoE)在扩大模型参数时管理计算成本方面具有潜力。然而，传统的MoE架构（如GShard）在确保专家专业化方面面临挑战。因此，我们提出了DeepSeekMoE架构，旨在实现终极的专家专业化。

Jan, 2024

细粒度专家混合的比例尺定律

通过分析扩展的变量范围，我们建立了适用于细粒度混合专家模型的扩展规模定律，并利用这些规律为特定计算预算推导出最佳的训练配置，结果显示Mixture of Experts模型在规模和训练预算扩大时始终优于密集Transformer模型。此外，我们证明在几乎任何计算预算下，将专家的大小设置成与前馈层相似的常见做法并不是最优的。

Feb, 2024

不是所有专家都是平等的：用于混合专家大型语言模型的高效专家修剪和跳过

通过引入插拔式专家级稀疏化技术，本文主要针对MoE LLMs的部署效率进行了改进，提出了任务无关和任务特定的专家修剪和跳过方法，从而同时减小模型大小、增加推理速度并保持满意的性能。

Feb, 2024

多头专家混合

多头专家混合模型 (MH-MoE) 使用多头机制将每个令牌拆分为多个子令牌，并并行分配给和处理多样的专家集，然后无缝地重新集成到原始令牌形式，从而增强了训练中的专家激活，深化了上下文理解，减轻过拟合，同时易于实施和与其他 SMoE 模型集成，对英语和多语言模型以及多模态建模任务进行了大量实验，证明了 MH-MoE 的有效性。

Apr, 2024

大型语言模型中混合专家的更深入研究

Mixture-of-experts (MoE)的内在机制及行为特征的初步研究表明神经元如同细粒度专家，在参数和行为特征方面带来了一些有趣的观察，为MoE框架和其他模块化架构的未来研究提供了启示。

Jun, 2024

高效的专家修剪用于稀疏的专家混合语言模型：提升性能和减少推理成本

在本研究中，我们引入了一种名为EEP（Efficient Expert Pruning）的无梯度进化策略，通过对神经网络模型中的专家进行剪枝，实现更高的稀疏性并在下游任务中保持或提高性能，从而解决大型语言模型的部署问题。

Jul, 2024

混合专家调查

大型语言模型（LLMs）通过其巨大的模型规模、丰富多样的数据集和庞大的计算能力的训练，获得了在自然语言处理、计算机视觉等领域的前所未有的进展。混合专家（MoE）作为一种有效的方法，以最小计算开销显著扩展模型容量，受到学术界和行业的广泛关注。本调查旨在弥补对MoE文献缺乏系统全面综述的空白，为研究人员深入探讨MoE的复杂性提供重要资源。我们首先简要介绍MoE层的结构，然后提出了新的MoE分类法。接下来，我们概述了各种MoE模型的核心设计，包括算法和系统方面，以及可用的开源实现、超参数配置和实证评估的集合。此外，我们还勾画了MoE在实践中的多方面应用，并概述了一些未来研究的潜在方向。为促进MoE研究中最新进展的持续更新和共享，我们创建了一个资源存储库，可访问此https网址。

Jun, 2024

稀疏混合专家下的任务不可知剪枝中的专家知识多样化

通过将模型参数增加但在执行任务时仅激活其中一部分，混合专家（MoE）架构明显提高了大型语言模型（LLMs）的性能而不增加推理成本。然而，由于专家数量增加而导致的内存消耗对于这些模型在实际应用中的部署构成了挑战。我们的经验研究发现，一些专家在预训练期间编码了冗余的知识。因此，我们提出了一种将相似专家分组并修剪以提高模型参数效率的方法。我们通过修剪Mixtral-8x7B和Mixtral-8x22B两个最先进的MoE模型来验证我们方法的有效性。评估结果显示，我们的方法在各种自然语言任务上优于其他模型修剪方法。为了便于未来研究，我们将发布我们的代码和修剪过的MoE模型。

Jul, 2024