FlexMoE: 通过动态设备放置实现大规模稀疏预训练模型训练的扩展
采用 Mixture of Experts 模型、多维并行技术和 DeepSpeed 库支持的系统,成功训练出拥有数百万参数的高效的多语言生成模型,同时提升了模型的样本效率和推断时间效率。
Sep, 2021
本文提出了 SE-MoE 模型,通过引入 Elastic MoE training、2D prefetch 和 Fusion communication 等技术,实现 Mixture-of-Experts 模型在分布式、异构计算系统上的高效训练和推理,即使在非均衡任务中也可以显著提升吞吐量同时减少内存开销。作者通过实验证明,与 DeepSpeed 相比,SE-MoE 在训练和推断中的吞吐量分别提高了 33%和 13%。
May, 2022
本文提出了基于 PyTorch 的 FastMoE 分布式混合专家 (Mixture-of-Expert) 训练系统,支持多 GPU 节点上放置不同的专家,通过高效的加速技术实现高速训练,并提供了灵活的模型设计和适应性,适用于 Transformer-XL 和 Megatron-LM 等不同的应用程序
Mar, 2021
本文介绍了一种通过 Mixture-of-Experts 模型架构实现的深度学习模型训练及推断方案,名为 DeepSpeed-MoE。该方案通过新颖的模型压缩技术和高度优化的推断系统,在减小模型尺寸、提高能效和降低硬件资源要求等方面都有着非常显著的表现。希望通过 Sparse MoE Models 的训练和部署,开辟更多高质量模型的新方向,减少硬件资源的需求,加速模型的落地应用。
Jan, 2022
通过采用密集计算进行训练和稀疏计算进行推理的混合密集与稀疏混合模型 (DS-MoE),在保持性能的同时实现了强大的计算和参数效率,比标准稀疏 MoE 更具参数效率,在总参数大小和性能方面与密集模型持平,而且计算成本更低。
Apr, 2024
本文介绍了一种名为 Vision MoE 的稀疏版本的 Vision Transformer,在图像识别方面表现出色且需要的计算量较少。此外,本文还提出了一种路由算法的扩展来优化每个输入的处理,最终通过训练一个达到 153 亿参数的模型,V-MoE 成功实现了高度可扩展的视觉建模。
Jun, 2021
本文提出一种新的混合专家神经网络架构(MoE),并采用三维混合并行算法,结合张量、专家和数据并行,进行内存和通信优化,极大地提高了 MoE 模型的训练效率和精度。
Mar, 2023
通过软的 MoE 方法,我们可以在训练和推断成本上实现模型容量的扩展,解决了传统的 MoE 方法中存在的多个问题,在视觉识别任务中显著优于标准的 Transformers 和其他 MoE 变种,并且在模型规模扩展上也有良好的性能。
Aug, 2023
本文提出一种基于 MoE 的语音识别模型 SpeechMoE,引入稀疏 L1 损失和平均重要性损失来控制路由器激活的稀疏性和提高门值的多样性,并使用了新的路由器架构,可以同时利用共享嵌入网络的信息和不同 MoE 层的分层表示。实验结果表明,该模型在计算成本可比的情况下,相对于传统的静态网络,可以提供 7.0%-23.0%的相对 CER 改进。
May, 2021
EdgeMoE 是面向边缘设备的第一个在设备上推理引擎,针对稀疏 LLMs 的一种流行变体,它通过在存储层次结构中策略性地分割模型,实现了内存和计算效率的提升。它使用两种创新技术来降低专家 I/O 交换的开销,经过实证评估,与竞争性基线解决方案相比,EdgeMoE 在内存节省和性能改进方面展现出显著优势。
Aug, 2023