FlexMoE: 通过动态设备放置实现大规模稀疏预训练模型训练的扩展

Apr, 2023

FlexMoE: 通过动态设备放置实现大规模稀疏预训练模型训练的扩展

FlexMoE: Scaling Large-scale Sparse Pre-trained Model Training via Dynamic Device Placement

Xiaonan Nie, Xupeng Miao, Zilong Wang, Zichao Yang, Jilong Xue...

TL;DR本文提出了一种名为 FlexMoE 的 DNN 训练框架，通过动态专家管理和设备布置机制，以及调度模块来优化大规模预训练模型训练过程中动态数据流所导致的效率问题，实验表明其在自然语言处理模型和视觉模型等领域具有较强的可扩展性和优越的性能。

Abstract

With the increasing data volume, there is a trend of using large-scale pre-trained models to store the knowledge into an enormous number of model parameters. The training of these models is composed of lots of dense algebras, requiring a huge amount of hardware resources. Recently, sparsely-gated →

large-scale pre-trained models mixture-of-experts dynamic dataflow device placement efficient heuristic algorithm

发现论文，激发创造

多任务多语种模型的可扩展高效 MoE 训练

采用 Mixture of Experts 模型、多维并行技术和 DeepSpeed 库支持的系统，成功训练出拥有数百万参数的高效的多语言生成模型，同时提升了模型的样本效率和推断时间效率。

Sep, 2021

SE-MoE：一种可扩展且高效的专家混合分布式训练和推断系统

本文提出了 SE-MoE 模型，通过引入 Elastic MoE training、2D prefetch 和 Fusion communication 等技术，实现 Mixture-of-Experts 模型在分布式、异构计算系统上的高效训练和推理，即使在非均衡任务中也可以显著提升吞吐量同时减少内存开销。作者通过实验证明，与 DeepSpeed 相比，SE-MoE 在训练和推断中的吞吐量分别提高了 33％和 13％。

May, 2022

FastMoE: 快速混合专家训练系统

本文提出了基于 PyTorch 的 FastMoE 分布式混合专家 (Mixture-of-Expert) 训练系统，支持多 GPU 节点上放置不同的专家，通过高效的加速技术实现高速训练，并提供了灵活的模型设计和适应性，适用于 Transformer-XL 和 Megatron-LM 等不同的应用程序

Mar, 2021

DeepSpeed-MoE: 推动混合专家推理和训练以推动下一代 AI 规模

本文介绍了一种通过 Mixture-of-Experts 模型架构实现的深度学习模型训练及推断方案，名为 DeepSpeed-MoE。该方案通过新颖的模型压缩技术和高度优化的推断系统，在减小模型尺寸、提高能效和降低硬件资源要求等方面都有着非常显著的表现。希望通过 Sparse MoE Models 的训练和部署，开辟更多高质量模型的新方向，减少硬件资源的需求，加速模型的落地应用。

Jan, 2022

密集训练，稀疏推断：重思混合专家语言模型的训练

通过采用密集计算进行训练和稀疏计算进行推理的混合密集与稀疏混合模型 (DS-MoE)，在保持性能的同时实现了强大的计算和参数效率，比标准稀疏 MoE 更具参数效率，在总参数大小和性能方面与密集模型持平，而且计算成本更低。

Apr, 2024

稀疏专家混合模型的视觉扩展

本文介绍了一种名为 Vision MoE 的稀疏版本的 Vision Transformer，在图像识别方面表现出色且需要的计算量较少。此外，本文还提出了一种路由算法的扩展来优化每个输入的处理，最终通过训练一个达到 153 亿参数的模型，V-MoE 成功实现了高度可扩展的视觉建模。

Jun, 2021

一种新颖的张量专家混合并行方法用于规模化专家混合训练

本文提出一种新的混合专家神经网络架构（MoE），并采用三维混合并行算法，结合张量、专家和数据并行，进行内存和通信优化，极大地提高了 MoE 模型的训练效率和精度。

Mar, 2023

从稀疏到软混合专家

通过软的 MoE 方法，我们可以在训练和推断成本上实现模型容量的扩展，解决了传统的 MoE 方法中存在的多个问题，在视觉识别任务中显著优于标准的 Transformers 和其他 MoE 变种，并且在模型规模扩展上也有良好的性能。

Aug, 2023

SpeechMoE：使用动态路由混合专家扩展大规模声学模型

本文提出一种基于 MoE 的语音识别模型 SpeechMoE，引入稀疏 L1 损失和平均重要性损失来控制路由器激活的稀疏性和提高门值的多样性，并使用了新的路由器架构，可以同时利用共享嵌入网络的信息和不同 MoE 层的分层表示。实验结果表明，该模型在计算成本可比的情况下，相对于传统的静态网络，可以提供 7.0％-23.0％的相对 CER 改进。

May, 2021

EdgeMoE: 基于 MoE 的大规模语言模型的快速设备上推断

EdgeMoE 是面向边缘设备的第一个在设备上推理引擎，针对稀疏 LLMs 的一种流行变体，它通过在存储层次结构中策略性地分割模型，实现了内存和计算效率的提升。它使用两种创新技术来降低专家 I/O 交换的开销，经过实证评估，与竞争性基线解决方案相比，EdgeMoE 在内存节省和性能改进方面展现出显著优势。

Aug, 2023