加速混合专家模型的快速连通专家并行

Apr, 2024

加速混合专家模型的快速连通专家并行

Shortcut-connected Expert Parallelism for Accelerating Mixture-of-Experts

Weilin Cai, Juyong Jiang, Le Qin, Junwei Cui, Sunghun Kim...

TL;DR提出了一种名为 ScMoE 的新型快捷连接的 MoE 架构，通过重叠并行策略有效地将通信与传统序列解耦，与普遍的前 2 名 MoE 架构相比，在 PCIe 和 NVLink 硬件环境中显示出 30% 和 11% 的训练速度提升，并且在推断方面提升了 40% 和 15%，其中通信占总 MoE 时间消耗的 60% 和 15%。此外，广泛的实验和理论分析表明，ScMoE 在视觉和语言任务中不仅达到了可比较的模型质量，而且在某些情况下超越了现有方法。

Abstract

expert parallelism has been introduced as a strategy to distribute the computational workload of sparsely-gated mixture-of-experts (MoE) models across multiple computing devices, facilitating the execution of the

expert parallelism sparsely-gated mixture-of-experts communication optimization shortcut-connected moe architecture training speed improvements

发现论文，激发创造

Pipeline MoE：一种具有管道并行性的灵活 Moe 实现

本文介绍了一种新的 MoE 体系结构 PPMoE，通过使用张量并行调整专家并减少点对点通讯来克服 MoE 的局限性，并可方便地与管道并行并用于扩展主干。实验表明，相比现有的 MoE 架构，PPMoE 不仅实现了超过 1.75 倍的加速，而且达到了其对应的主干模型的 90% 吞吐量而模型大小只有它的 1/20。

Apr, 2023

一种新颖的张量专家混合并行方法用于规模化专家混合训练

本文提出一种新的混合专家神经网络架构（MoE），并采用三维混合并行算法，结合张量、专家和数据并行，进行内存和通信优化，极大地提高了 MoE 模型的训练效率和精度。

Mar, 2023

利用层间专家亲和性加速混合专家模型推理

在这篇论文中，我们提出了一种轻量级的优化技术 called ExFlow，用于大大加速 Mixture of Experts 模型的推理过程，并通过利用层间专家亲和力来减少跨 GPU 路由延迟，取得了显著的推理吞吐量提升效果。

Jan, 2024

Lancet: 通过整图计算 - 通信重叠加速混合专家训练

我们的研究扩展了 Mixture-of-Expert (MoE) 技术在训练过程中的重叠性挑战，并通过特定的分区和流水线技术实现了非 MoE 计算与 all-to-all 通信的重叠。我们的 Lancet 系统在自动增强 MoE 模型训练时，显著减少了非重叠性通信所需的时间，最高达到 77%。此外，与同类解决方案相比，速度提升达到了显著的 1.3 倍。

Apr, 2024

SE-MoE：一种可扩展且高效的专家混合分布式训练和推断系统

本文提出了 SE-MoE 模型，通过引入 Elastic MoE training、2D prefetch 和 Fusion communication 等技术，实现 Mixture-of-Experts 模型在分布式、异构计算系统上的高效训练和推理，即使在非均衡任务中也可以显著提升吞吐量同时减少内存开销。作者通过实验证明，与 DeepSpeed 相比，SE-MoE 在训练和推断中的吞吐量分别提高了 33％和 13％。

May, 2022

LocMoE：一种用于大型语言模型训练的低开销 MoE

通过转换部分节点间通信为节点内通信的路由策略，我们提出了一种新颖的负载均衡和局部性相结合的路由策略，并在 PanGu-Sigma 模型上进行了改进，实验证明该路由策略减少了每轮训练时间约 12.68% 至 22.24%，而不影响模型的准确性。

Jan, 2024

多任务多语种模型的可扩展高效 MoE 训练

采用 Mixture of Experts 模型、多维并行技术和 DeepSpeed 库支持的系统，成功训练出拥有数百万参数的高效的多语言生成模型，同时提升了模型的样本效率和推断时间效率。

Sep, 2021

专家稀疏混合模型的任务特定剪枝

通过逐步删除稀有的 expert，将 Mixture-of-Experts 模型缩减为单一的 dense 模型，以提高计算效率并提供较快的推理速度而保留整体性能。

Jun, 2022

推动专家混合模型的极限：非常参数高效的指令调优 MoE

我们的研究展示了混合专家架构的多样性，即使在严格的参数约束下，也能提供稳健的性能，并通过唯一地将 MoE 架构与轻量级专家相结合，提出了极其高效的 MoE 架构，推动了 MoE 的极限。

Sep, 2023

通过动态专家交换在资源受限的边缘设备上提供 MoE 模型服务

基于连续推理的资源受限混合专家模型 (PC-MoE) 能有效降低资源消耗和增加模型准确性。

Aug, 2023