细粒度专家混合的比例尺定律

Feb, 2024

Scaling Laws for Fine-Grained Mixture of Experts

Jakub Krajewski, Jan Ludziejewski, Kamil Adamczewski, Maciej Pióro, Michał Krutul...

TL;DR通过分析扩展的变量范围，我们建立了适用于细粒度混合专家模型的扩展规模定律，并利用这些规律为特定计算预算推导出最佳的训练配置，结果显示 Mixture of Experts 模型在规模和训练预算扩大时始终优于密集 Transformer 模型。此外，我们证明在几乎任何计算预算下，将专家的大小设置成与前馈层相似的常见做法并不是最优的。

Abstract

mixture of experts (MoE) models have emerged as a primary solution for reducing the computational cost of Large Language Models. In this work, we analyze their →

mixture of experts computational cost scaling properties fine-grained moe training configuration

发现论文，激发创造

面向推理最优的混合专家大语言模型

基于混合专家的大型语言模型（如最近的 Mixtral 和 DeepSeek-MoE）在规模大小上显示出巨大潜力，其训练成本不会像密集变换器那样呈二次增长。然而，我们发现增加专家的数量会导致递减收益，因此我们建议将推理效率作为模型缩放定律的指标之一，以在相同性能下提供最好的解决方案。

Apr, 2024

基于专家混合的高效大规模语言建模

本文研究了自回归 MoE 语言模型在各种设置下与密集模型的规模比较，并发现除了 fine-tuning 以外，在相同预算下 MoE 模型比密集模型更加高效。该研究表明 MoE 和密集模型在任务和领域上的推广效果不同，值得进一步研究。

Dec, 2021

多任务多语种模型的可扩展高效 MoE 训练

采用 Mixture of Experts 模型、多维并行技术和 DeepSpeed 库支持的系统，成功训练出拥有数百万参数的高效的多语言生成模型，同时提升了模型的样本效率和推断时间效率。

Sep, 2021

大型语言模型中混合专家的更深入研究

Mixture-of-experts (MoE) 的内在机制及行为特征的初步研究表明神经元如同细粒度专家，在参数和行为特征方面带来了一些有趣的观察，为 MoE 框架和其他模块化架构的未来研究提供了启示。

Jun, 2024

多线性专家混合模型：通过分解实现可扩展的专家专业化

通过使用 Multilinear Mixutre of Experts (MMoE) 层来缩放专家的数量，从而实现图像模型的细粒度特化，并通过定性和定量的证据证明了其与线性层具有相当的性能，同时进一步协助修正 CelebA 属性分类中的人口统计偏差。

Feb, 2024

混合专家调查

大型语言模型（LLMs）通过其巨大的模型规模、丰富多样的数据集和庞大的计算能力的训练，获得了在自然语言处理、计算机视觉等领域的前所未有的进展。混合专家（MoE）作为一种有效的方法，以最小计算开销显著扩展模型容量，受到学术界和行业的广泛关注。本调查旨在弥补对 MoE 文献缺乏系统全面综述的空白，为研究人员深入探讨 MoE 的复杂性提供重要资源。我们首先简要介绍 MoE 层的结构，然后提出了新的 MoE 分类法。接下来，我们概述了各种 MoE 模型的核心设计，包括算法和系统方面，以及可用的开源实现、超参数配置和实证评估的集合。此外，我们还勾画了 MoE 在实践中的多方面应用，并概述了一些未来研究的潜在方向。为促进 MoE 研究中最新进展的持续更新和共享，我们创建了一个资源存储库，可访问此 https 网址。

Jun, 2024

稀疏专家混合下的视觉语言模型扩展

本研究探讨了使用稀疏门控专家组技术解决大规模视觉语言模型训练中的挑战，并在等效计算成本下实现最先进性能的潜力，通过稀疏门控专家组对模型解释性的影响及其与 VLM 扩展计算性能之间的折衷，本文为大规模视觉语言模型的扩展提供了宝贵的洞见，并希望能够激发对 MoE 在其他多模态机器学习应用中的研究。

Mar, 2023

混合专家解开深度强化学习的参数缩放

本文研究了监督学习、缩放定律、强化学习、专家混合和参数可扩展性，并通过实证提供了发展强化学习缩放定律的有力证据。

Feb, 2024

一种新颖的张量专家混合并行方法用于规模化专家混合训练

本文提出一种新的混合专家神经网络架构（MoE），并采用三维混合并行算法，结合张量、专家和数据并行，进行内存和通信优化，极大地提高了 MoE 模型的训练效率和精度。

Mar, 2023

将专家合并为一体：提高混合专家的计算效率

本研究主要通过提出一种计算较为高效的方法 Merging Experts into One（MEO）来降低计算成本，并通过实验证明其优越性以及如何进一步提高效率和性能。

Oct, 2023