Lancet: 通过整图计算 - 通信重叠加速混合专家训练

Apr, 2024

Lancet: 通过整图计算 - 通信重叠加速混合专家训练

Lancet: Accelerating Mixture-of-Experts Training via Whole Graph Computation-Communication Overlapping

Chenyu Jiang, Ye Tian, Zhen Jia, Shuai Zheng, Chuan Wu...

TL;DR我们的研究扩展了 Mixture-of-Expert (MoE) 技术在训练过程中的重叠性挑战，并通过特定的分区和流水线技术实现了非 MoE 计算与 all-to-all 通信的重叠。我们的 Lancet 系统在自动增强 MoE 模型训练时，显著减少了非重叠性通信所需的时间，最高达到 77%。此外，与同类解决方案相比，速度提升达到了显著的 1.3 倍。

Abstract

The mixture-of-expert (MoE) technique plays a crucial role in expanding the size of DNN model parameters. However, it faces the challenge of extended all-to-all communication latency during the training process.

mixture-of-expert all-to-all communication overlap lancet speedup

发现论文，激发创造

加速混合专家模型的快速连通专家并行

提出了一种名为 ScMoE 的新型快捷连接的 MoE 架构，通过重叠并行策略有效地将通信与传统序列解耦，与普遍的前 2 名 MoE 架构相比，在 PCIe 和 NVLink 硬件环境中显示出 30% 和 11% 的训练速度提升，并且在推断方面提升了 40% 和 15%，其中通信占总 MoE 时间消耗的 60% 和 15%。此外，广泛的实验和理论分析表明，ScMoE 在视觉和语言任务中不仅达到了可比较的模型质量，而且在某些情况下超越了现有方法。

Apr, 2024

一种新颖的张量专家混合并行方法用于规模化专家混合训练

本文提出一种新的混合专家神经网络架构（MoE），并采用三维混合并行算法，结合张量、专家和数据并行，进行内存和通信优化，极大地提高了 MoE 模型的训练效率和精度。

Mar, 2023

利用层间专家亲和性加速混合专家模型推理

在这篇论文中，我们提出了一种轻量级的优化技术 called ExFlow，用于大大加速 Mixture of Experts 模型的推理过程，并通过利用层间专家亲和力来减少跨 GPU 路由延迟，取得了显著的推理吞吐量提升效果。

Jan, 2024

LocMoE：一种用于大型语言模型训练的低开销 MoE

通过转换部分节点间通信为节点内通信的路由策略，我们提出了一种新颖的负载均衡和局部性相结合的路由策略，并在 PanGu-Sigma 模型上进行了改进，实验证明该路由策略减少了每轮训练时间约 12.68% 至 22.24%，而不影响模型的准确性。

Jan, 2024

连续学习中的专家混合理论

混合专家（MoE）模型通过利用门控网络在多个专家之间稀疏和分配不同任务，从而有效缓解了连续学习中的灾难性遗忘问题。本文通过对过参数化线性回归任务进行理论分析，得出了 MoE 模型相对于单个专家的优势，并提供了 MoE 模型在学习性能中的影响的明确表达式，同时还介绍了在连续任务到达的情况下，在足够的训练轮次后终止门控网络的必要性。最后，通过对合成和真实数据集的实验，将这些洞见扩展到深度神经网络，并在连续学习中的 MoE 的实际算法设计上提供了启示。

Jun, 2024

FastMoE: 快速混合专家训练系统

本文提出了基于 PyTorch 的 FastMoE 分布式混合专家 (Mixture-of-Expert) 训练系统，支持多 GPU 节点上放置不同的专家，通过高效的加速技术实现高速训练，并提供了灵活的模型设计和适应性，适用于 Transformer-XL 和 Megatron-LM 等不同的应用程序

Mar, 2021

图混合专家：使用显式多样性建模在大规模图上学习

该论文引入了 Mixture-of-Expert（MoE）思想到图神经网络中，提出了一种新的 Graph Mixture of Expert（GMoE）模型，用于同时建模多样的训练图结构，通过在 OGB 基准测试中表现的提升来验证 GMoE 的有效性。

Apr, 2023

重新审视单门限专家混合模型

本文提出了一种基于单门 MoE 的简单且高效的异步训练方法，并通过基于聚类的初始化策略等技术手段实现了高效率与高准确率的权衡，与其他复杂的 MoE 相比表现优异，为单门 MoE 的应用提供了新的思路。

Apr, 2023

多任务多语种模型的可扩展高效 MoE 训练

采用 Mixture of Experts 模型、多维并行技术和 DeepSpeed 库支持的系统，成功训练出拥有数百万参数的高效的多语言生成模型，同时提升了模型的样本效率和推断时间效率。

Sep, 2021

Pipeline MoE：一种具有管道并行性的灵活 Moe 实现

本文介绍了一种新的 MoE 体系结构 PPMoE，通过使用张量并行调整专家并减少点对点通讯来克服 MoE 的局限性，并可方便地与管道并行并用于扩展主干。实验表明，相比现有的 MoE 架构，PPMoE 不仅实现了超过 1.75 倍的加速，而且达到了其对应的主干模型的 90% 吞吐量而模型大小只有它的 1/20。

Apr, 2023