MegaBlocks：混合专家梯度稀疏训练的高效实现

Nov, 2022

MegaBlocks：混合专家梯度稀疏训练的高效实现

MegaBlocks: Efficient Sparse Training with Mixture-of-Experts

Trevor Gale, Deepak Narayanan, Cliff Young, Matei Zaharia

TL;DRMegaBlocks 是一种用于 GPU 上高效混合专家模型 (MoE) 的系统，通过块稀疏操作优化 MoE 计算，在不丢弃信息的前提下提高硬件效率，能够实现 40% 的训练加速。

Abstract

We present megablocks, a system for efficient mixture-of-experts (moe) training on GPUs. Our system is motivated by the limitations of cur

megablocks mixture-of-experts moe gpu block-sparse operations

发现论文，激发创造

分散实施的混合专家

通过引入 ScatterMoE 和 ParallelLinear，实现了在 GPU 上的 Sparse Mixture-of-Experts，并通过与 Megablocks 的对比验证了其高吞吐量和较低的内存占用，同时展示了 ParallelLinear 对 Mixture of Attention 概念的扩展性。

Mar, 2024

一种新颖的张量专家混合并行方法用于规模化专家混合训练

本文提出一种新的混合专家神经网络架构（MoE），并采用三维混合并行算法，结合张量、专家和数据并行，进行内存和通信优化，极大地提高了 MoE 模型的训练效率和精度。

Mar, 2023

混合专家语言模型的快速推断与卸载

通过参数卸载算法和利用 MoE LLMs 的固有属性提出一种新策略，使消费者硬件和免费 Google Colab 实例上能够运行 Mixtral-8x7B 型号的 MoE 语言模型。

Dec, 2023

多任务多语种模型的可扩展高效 MoE 训练

采用 Mixture of Experts 模型、多维并行技术和 DeepSpeed 库支持的系统，成功训练出拥有数百万参数的高效的多语言生成模型，同时提升了模型的样本效率和推断时间效率。

Sep, 2021

密集训练，稀疏推断：重思混合专家语言模型的训练

通过采用密集计算进行训练和稀疏计算进行推理的混合密集与稀疏混合模型 (DS-MoE)，在保持性能的同时实现了强大的计算和参数效率，比标准稀疏 MoE 更具参数效率，在总参数大小和性能方面与密集模型持平，而且计算成本更低。

Apr, 2024

FastMoE: 快速混合专家训练系统

本文提出了基于 PyTorch 的 FastMoE 分布式混合专家 (Mixture-of-Expert) 训练系统，支持多 GPU 节点上放置不同的专家，通过高效的加速技术实现高速训练，并提供了灵活的模型设计和适应性，适用于 Transformer-XL 和 Megatron-LM 等不同的应用程序

Mar, 2021

FlexMoE: 通过动态设备放置实现大规模稀疏预训练模型训练的扩展

本文提出了一种名为 FlexMoE 的 DNN 训练框架，通过动态专家管理和设备布置机制，以及调度模块来优化大规模预训练模型训练过程中动态数据流所导致的效率问题，实验表明其在自然语言处理模型和视觉模型等领域具有较强的可扩展性和优越的性能。

Apr, 2023

专家稀疏混合模型的任务特定剪枝

通过逐步删除稀有的 expert，将 Mixture-of-Experts 模型缩减为单一的 dense 模型，以提高计算效率并提供较快的推理速度而保留整体性能。

Jun, 2022

SE-MoE：一种可扩展且高效的专家混合分布式训练和推断系统

本文提出了 SE-MoE 模型，通过引入 Elastic MoE training、2D prefetch 和 Fusion communication 等技术，实现 Mixture-of-Experts 模型在分布式、异构计算系统上的高效训练和推理，即使在非均衡任务中也可以显著提升吞吐量同时减少内存开销。作者通过实验证明，与 DeepSpeed 相比，SE-MoE 在训练和推断中的吞吐量分别提高了 33％和 13％。

May, 2022

DeepSpeed-MoE: 推动混合专家推理和训练以推动下一代 AI 规模

本文介绍了一种通过 Mixture-of-Experts 模型架构实现的深度学习模型训练及推断方案，名为 DeepSpeed-MoE。该方案通过新颖的模型压缩技术和高度优化的推断系统，在减小模型尺寸、提高能效和降低硬件资源要求等方面都有着非常显著的表现。希望通过 Sparse MoE Models 的训练和部署，开辟更多高质量模型的新方向，减少硬件资源的需求，加速模型的落地应用。

Jan, 2022