一种新颖的张量专家混合并行方法用于规模化专家混合训练

Mar, 2023

一种新颖的张量专家混合并行方法用于规模化专家混合训练

A Novel Tensor-Expert Hybrid Parallelism Approach to Scale Mixture-of-Experts Training

Siddharth Singh, Olatunji Ruwase, Ammar Ahmad Awan, Samyam Rajbhandari, Yuxiong He...

TL;DR本文提出一种新的混合专家神经网络架构（MoE），并采用三维混合并行算法，结合张量、专家和数据并行，进行内存和通信优化，极大地提高了 MoE 模型的训练效率和精度。

Abstract

A new neural network architecture called mixture-of-experts (MoE) has been proposed recently that increases the parameters of a neural network (the base model) by adding sparsely activated expert blocks, without

neural network architecture mixture-of-experts parallel algorithm memory optimization communication optimization

发现论文，激发创造

多任务多语种模型的可扩展高效 MoE 训练

采用 Mixture of Experts 模型、多维并行技术和 DeepSpeed 库支持的系统，成功训练出拥有数百万参数的高效的多语言生成模型，同时提升了模型的样本效率和推断时间效率。

Sep, 2021

推动专家混合模型的极限：非常参数高效的指令调优 MoE

我们的研究展示了混合专家架构的多样性，即使在严格的参数约束下，也能提供稳健的性能，并通过唯一地将 MoE 架构与轻量级专家相结合，提出了极其高效的 MoE 架构，推动了 MoE 的极限。

Sep, 2023

专家稀疏混合模型的任务特定剪枝

通过逐步删除稀有的 expert，将 Mixture-of-Experts 模型缩减为单一的 dense 模型，以提高计算效率并提供较快的推理速度而保留整体性能。

Jun, 2022

SE-MoE：一种可扩展且高效的专家混合分布式训练和推断系统

本文提出了 SE-MoE 模型，通过引入 Elastic MoE training、2D prefetch 和 Fusion communication 等技术，实现 Mixture-of-Experts 模型在分布式、异构计算系统上的高效训练和推理，即使在非均衡任务中也可以显著提升吞吐量同时减少内存开销。作者通过实验证明，与 DeepSpeed 相比，SE-MoE 在训练和推断中的吞吐量分别提高了 33％和 13％。

May, 2022

预训练语言模型的参数高效专家混合架构

本文提出了一种参数高效的混合专家架构，通过在专家层中共享参数矩阵中心张量的信息，并通过辅助张量增加各个专家的特异性，从而通过矩阵乘积算子来实现受量子多体物理学影响的张量分解，以解决混合专家架构中存在的参数膨胀问题，实验结果表明新方法具有更好的性能和效率。

Mar, 2022

M6-T：探索稀疏专家模型及其进展

本文研究了稀疏专家模型中的关键因素，提出了专家原型法以改善模型质量，同时将模型规模扩大到 1 万亿参数，实现了与 TPU 相同的加速。

May, 2021

FastMoE: 快速混合专家训练系统

本文提出了基于 PyTorch 的 FastMoE 分布式混合专家 (Mixture-of-Expert) 训练系统，支持多 GPU 节点上放置不同的专家，通过高效的加速技术实现高速训练，并提供了灵活的模型设计和适应性，适用于 Transformer-XL 和 Megatron-LM 等不同的应用程序

Mar, 2021

DeepSpeed-MoE: 推动混合专家推理和训练以推动下一代 AI 规模

本文介绍了一种通过 Mixture-of-Experts 模型架构实现的深度学习模型训练及推断方案，名为 DeepSpeed-MoE。该方案通过新颖的模型压缩技术和高度优化的推断系统，在减小模型尺寸、提高能效和降低硬件资源要求等方面都有着非常显著的表现。希望通过 Sparse MoE Models 的训练和部署，开辟更多高质量模型的新方向，减少硬件资源的需求，加速模型的落地应用。

Jan, 2022

面向推理最优的混合专家大语言模型

基于混合专家的大型语言模型（如最近的 Mixtral 和 DeepSeek-MoE）在规模大小上显示出巨大潜力，其训练成本不会像密集变换器那样呈二次增长。然而，我们发现增加专家的数量会导致递减收益，因此我们建议将推理效率作为模型缩放定律的指标之一，以在相同性能下提供最好的解决方案。

Apr, 2024

大型语言模型中混合专家的更深入研究

Mixture-of-experts (MoE) 的内在机制及行为特征的初步研究表明神经元如同细粒度专家，在参数和行为特征方面带来了一些有趣的观察，为 MoE 框架和其他模块化架构的未来研究提供了启示。

Jun, 2024