利用层间专家亲和性加速混合专家模型推理

Jan, 2024

利用层间专家亲和性加速混合专家模型推理

Exploiting Inter-Layer Expert Affinity for Accelerating Mixture-of-Experts Model Inference

Jinghan Yao, Quentin Anthony, Aamir Shafi, Hari Subramoni, Dhabaleswar K....

TL;DR在这篇论文中，我们提出了一种轻量级的优化技术 called ExFlow，用于大大加速 Mixture of Experts 模型的推理过程，并通过利用层间专家亲和力来减少跨 GPU 路由延迟，取得了显著的推理吞吐量提升效果。

Abstract

In large language models like the generative pre-trained transformer, the mixture of experts paradigm has emerged as a powerful technique for enhancing model expressiveness and accuracy. However, deploying GPT Mo

generative pre-trained transformer mixture of experts distributed systems inference optimization expert affinity

发现论文，激发创造

加速混合专家模型的快速连通专家并行

提出了一种名为 ScMoE 的新型快捷连接的 MoE 架构，通过重叠并行策略有效地将通信与传统序列解耦，与普遍的前 2 名 MoE 架构相比，在 PCIe 和 NVLink 硬件环境中显示出 30% 和 11% 的训练速度提升，并且在推断方面提升了 40% 和 15%，其中通信占总 MoE 时间消耗的 60% 和 15%。此外，广泛的实验和理论分析表明，ScMoE 在视觉和语言任务中不仅达到了可比较的模型质量，而且在某些情况下超越了现有方法。

Apr, 2024

LocMoE：一种用于大型语言模型训练的低开销 MoE

通过转换部分节点间通信为节点内通信的路由策略，我们提出了一种新颖的负载均衡和局部性相结合的路由策略，并在 PanGu-Sigma 模型上进行了改进，实验证明该路由策略减少了每轮训练时间约 12.68% 至 22.24%，而不影响模型的准确性。

Jan, 2024

走向 MoE 部署：缓解专家混合（MoE）推断中的低效率

本文提出了三种 Mixture-of-Experts （MoE）模型的优化技术，分别为动态门控、专家缓存和专家负载均衡，其中动态门控技术可以在多达 5 倍的性能提升的同时减少 GPU 内存的使用，而专家缓存技术可以通过只在 GPU 内存中缓存热门专家来减少最高可达 1.47 倍的静态内存分配。这些技术能够提高该 MoE 模型的效率并使得其更容易部署到实际应用中。

Mar, 2023

一种新颖的张量专家混合并行方法用于规模化专家混合训练

本文提出一种新的混合专家神经网络架构（MoE），并采用三维混合并行算法，结合张量、专家和数据并行，进行内存和通信优化，极大地提高了 MoE 模型的训练效率和精度。

Mar, 2023

混合专家语言模型的快速推断与卸载

通过参数卸载算法和利用 MoE LLMs 的固有属性提出一种新策略，使消费者硬件和免费 Google Colab 实例上能够运行 Mixtral-8x7B 型号的 MoE 语言模型。

Dec, 2023

Pipeline MoE：一种具有管道并行性的灵活 Moe 实现

本文介绍了一种新的 MoE 体系结构 PPMoE，通过使用张量并行调整专家并减少点对点通讯来克服 MoE 的局限性，并可方便地与管道并行并用于扩展主干。实验表明，相比现有的 MoE 架构，PPMoE 不仅实现了超过 1.75 倍的加速，而且达到了其对应的主干模型的 90% 吞吐量而模型大小只有它的 1/20。

Apr, 2023

预训练语言模型的参数高效专家混合架构

本文提出了一种参数高效的混合专家架构，通过在专家层中共享参数矩阵中心张量的信息，并通过辅助张量增加各个专家的特异性，从而通过矩阵乘积算子来实现受量子多体物理学影响的张量分解，以解决混合专家架构中存在的参数膨胀问题，实验结果表明新方法具有更好的性能和效率。

Mar, 2022

超越蒸馏：面向任务的专家混合方法实现高效推断

该论文研究了不同粒度（令牌、句子、任务）MoE 模型中的路由策略，以绕过蒸馏。通过任务级路由（task-MoE）在 WMT 和 Web 规模数据集上进行的实验表明，我们能够从大型稀疏模型中提取更小、可部署的子网络。对于 30 种语言对，我们的 32 个专家的 task-MOE （533M 个参数）在 WMT 上的表现平均比表现最佳的令牌级 MoE 模型（token-MoE）高 1.0 BLEU。而将一个 token-MoE 蒸馏成较小的密集模型只能保留 32% 的 BLEU 收益，但通过设计，我们的子网络 task-MoE 可以保留所有收益，并且和蒸馏后的 student 模型有相同的推理成本。最后，当扩展到 200 种语言对时，我们的 128 个专家的 task-MoE（13B 个参数）表现与令牌级模型相近，并且提高了推理吞吐量 2.6 倍。

Sep, 2021

Lancet: 通过整图计算 - 通信重叠加速混合专家训练

我们的研究扩展了 Mixture-of-Expert (MoE) 技术在训练过程中的重叠性挑战，并通过特定的分区和流水线技术实现了非 MoE 计算与 all-to-all 通信的重叠。我们的 Lancet 系统在自动增强 MoE 模型训练时，显著减少了非重叠性通信所需的时间，最高达到 77%。此外，与同类解决方案相比，速度提升达到了显著的 1.3 倍。

Apr, 2024

LocMoE+：增强型路由器具有令牌特征感知的高效 LLM 预训练

LocMoE + 是低成本的改进版本，通过量化和定义专家和令牌之间的关联性、实施全局级自适应路由策略以重新排列令牌以及重新估计专家容量的下限来解决 Mixture-of-Experts 架构中存在的问题，验证实验结果显示，每个专家处理的令牌数量可以减少超过 60%，在与通信优化相结合的情况下，训练效率平均提高了 5.4% 至 46.6%，在微调后，LocMoE + 在 GDAD、C-Eval 和 TeleQnA 数据集中的性能提高了 9.7% 至 14.1%。

May, 2024