可扩展自适应专家混合模型

Jun, 2022

Tutel: Adaptive Mixture-of-Experts at Scale

Changho Hwang, Wei Cui, Yifan Xiong, Ziyue Yang, Ze Liu...

TL;DRTutel is a highly scalable stack design for Mixture-of-Experts (MoE) with dynamically adaptive parallelism and pipelining that achieves up to a 5.75x speedup of a single MoE layer on 2,048 GPUs over Fairseq, and delivers efficiency and effectiveness in running a real-world MoE-based model named SwinV2-MoE.

Abstract

In recent years, mixture-of-experts (MoE) has emerged as a promising technique for deep learning that can scale the model capacity to trillion-plus parameters while reducing the computing cost via sparse computation. While MoE opens a new frontier of exceedingly large models, its imple

mixture-of-experts tutel parallelism pipelining swinev2-moe

发现论文，激发创造

FastMoE: 快速混合专家训练系统

本文提出了基于 PyTorch 的 FastMoE 分布式混合专家 (Mixture-of-Expert) 训练系统，支持多 GPU 节点上放置不同的专家，通过高效的加速技术实现高速训练，并提供了灵活的模型设计和适应性，适用于 Transformer-XL 和 Megatron-LM 等不同的应用程序

Mar, 2021

一种新颖的张量专家混合并行方法用于规模化专家混合训练

本文提出一种新的混合专家神经网络架构（MoE），并采用三维混合并行算法，结合张量、专家和数据并行，进行内存和通信优化，极大地提高了 MoE 模型的训练效率和精度。

Mar, 2023

多任务多语种模型的可扩展高效 MoE 训练

采用 Mixture of Experts 模型、多维并行技术和 DeepSpeed 库支持的系统，成功训练出拥有数百万参数的高效的多语言生成模型，同时提升了模型的样本效率和推断时间效率。

Sep, 2021

SE-MoE：一种可扩展且高效的专家混合分布式训练和推断系统

本文提出了 SE-MoE 模型，通过引入 Elastic MoE training、2D prefetch 和 Fusion communication 等技术，实现 Mixture-of-Experts 模型在分布式、异构计算系统上的高效训练和推理，即使在非均衡任务中也可以显著提升吞吐量同时减少内存开销。作者通过实验证明，与 DeepSpeed 相比，SE-MoE 在训练和推断中的吞吐量分别提高了 33％和 13％。

May, 2022

Pipeline MoE：一种具有管道并行性的灵活 Moe 实现

本文介绍了一种新的 MoE 体系结构 PPMoE，通过使用张量并行调整专家并减少点对点通讯来克服 MoE 的局限性，并可方便地与管道并行并用于扩展主干。实验表明，相比现有的 MoE 架构，PPMoE 不仅实现了超过 1.75 倍的加速，而且达到了其对应的主干模型的 90% 吞吐量而模型大小只有它的 1/20。

Apr, 2023

从稀疏到软混合专家

通过软的 MoE 方法，我们可以在训练和推断成本上实现模型容量的扩展，解决了传统的 MoE 方法中存在的多个问题，在视觉识别任务中显著优于标准的 Transformers 和其他 MoE 变种，并且在模型规模扩展上也有良好的性能。

Aug, 2023

使用混合专家和混合精度来调节服务质量

本文介绍了一种用于高效部署 Mixture-of-Experts 模型的自适应服务方法，利用部分量化的专家动态确定量化专家的数量和它们在 CPU 和 GPU 上的分布，探索 Pareto 前沿并提供精细的配置范围，优化吞吐量和模型质量的调整。通过在 NVIDIA A100 GPU 上对三个语言建模基准进行评估，本文证明了在最大量化条件下，令牌生成的吞吐量可以从每秒 0.63 个调整到每秒 13.00 个。这种改进仅导致了 WikiText2、PTB 和 C4 数据集的困惑度略微增加，分别从 2.62 增加到 2.80、从 6.48 增加到 7.24、从 3.24 增加到 3.53，凸显了我们方法在动态和对输出质量敏感的应用中的实际适用性，其中内存使用和输出质量都很重要。

Jul, 2024

DeepSpeed-MoE: 推动混合专家推理和训练以推动下一代 AI 规模

本文介绍了一种通过 Mixture-of-Experts 模型架构实现的深度学习模型训练及推断方案，名为 DeepSpeed-MoE。该方案通过新颖的模型压缩技术和高度优化的推断系统，在减小模型尺寸、提高能效和降低硬件资源要求等方面都有着非常显著的表现。希望通过 Sparse MoE Models 的训练和部署，开辟更多高质量模型的新方向，减少硬件资源的需求，加速模型的落地应用。

Jan, 2022

推动专家混合模型的极限：非常参数高效的指令调优 MoE

我们的研究展示了混合专家架构的多样性，即使在严格的参数约束下，也能提供稳健的性能，并通过唯一地将 MoE 架构与轻量级专家相结合，提出了极其高效的 MoE 架构，推动了 MoE 的极限。

Sep, 2023

ST-MoE: 设计稳定且可转移的稀疏专家模型

本文关注自然语言处理中的训练不稳定和模型精确性问题，研究提出一种设计指南，通过将一个稀疏模型扩展到 269B 参数实现了全面的迁移学习，成为第一个在各类任务中达到最先进水平的稀疏模型 (ST-MoE-32B)。

Feb, 2022