预门控 MoE：用于快速可扩展的专家混合推理的算法 - 系统协同设计

Aug, 2023

预门控 MoE：用于快速可扩展的专家混合推理的算法 - 系统协同设计

Pre-gated MoE: An Algorithm-System Co-Design for Fast and Scalable Mixture-of-Expert Inference

Ranggi Hwang, Jianyu Wei, Shijie Cao, Changho Hwang, Xiaohu Tang...

TL;DR基于 transformers 的大型语言模型 (LLMs) 近年取得显著进展，其成功驱动因素是其模型规模的扩大。然而，LLMs 的计算和内存需求带来了前所未有的挑战，此研究提出 Pre-gated MoE 系统，通过算法与系统的共同设计，解决传统 MoE 体系的计算和内存问题，提高性能，降低 GPU 内存消耗，并保持与传统模型的质量水平，以高性能的方式使用单个 GPU 部署大规模 LLMs。

Abstract

large language models (LLMs) based on transformers have made significant strides in recent years, the success of which is driven by scaling up their model size. Despite their high algorithmic performance, the com

large language models transformers mixture-of-experts moe pre-gated moe

发现论文，激发创造

多任务多语种模型的可扩展高效 MoE 训练

采用 Mixture of Experts 模型、多维并行技术和 DeepSpeed 库支持的系统，成功训练出拥有数百万参数的高效的多语言生成模型，同时提升了模型的样本效率和推断时间效率。

Sep, 2021

EdgeMoE: 基于 MoE 的大规模语言模型的快速设备上推断

EdgeMoE 是面向边缘设备的第一个在设备上推理引擎，针对稀疏 LLMs 的一种流行变体，它通过在存储层次结构中策略性地分割模型，实现了内存和计算效率的提升。它使用两种创新技术来降低专家 I/O 交换的开销，经过实证评估，与竞争性基线解决方案相比，EdgeMoE 在内存节省和性能改进方面展现出显著优势。

Aug, 2023

基于专家混合的语言模型中的自适应门控

在该研究中，作者提出了自适应门控混合专家模型，通过采用可变数量的专家处理令牌，实现了稀疏度的保持和训练效率的提高，通过大量实验验证了这种方法在减少训练时间的同时，保持推理质量。

Oct, 2023

走向 MoE 部署：缓解专家混合（MoE）推断中的低效率

本文提出了三种 Mixture-of-Experts （MoE）模型的优化技术，分别为动态门控、专家缓存和专家负载均衡，其中动态门控技术可以在多达 5 倍的性能提升的同时减少 GPU 内存的使用，而专家缓存技术可以通过只在 GPU 内存中缓存热门专家来减少最高可达 1.47 倍的静态内存分配。这些技术能够提高该 MoE 模型的效率并使得其更容易部署到实际应用中。

Mar, 2023

混合专家语言模型的快速推断与卸载

通过参数卸载算法和利用 MoE LLMs 的固有属性提出一种新策略，使消费者硬件和免费 Google Colab 实例上能够运行 Mixtral-8x7B 型号的 MoE 语言模型。

Dec, 2023

混合专家中改进专家专业化能力

本文提出一种新的 MoE 的门控网络结构，类似于注意力机制，可以在任务分解方面提高性能并导致更低的熵，同时介绍了一种新的数据驱动正则化方法，可以提高专家的专业化。

Feb, 2023

SE-MoE：一种可扩展且高效的专家混合分布式训练和推断系统

本文提出了 SE-MoE 模型，通过引入 Elastic MoE training、2D prefetch 和 Fusion communication 等技术，实现 Mixture-of-Experts 模型在分布式、异构计算系统上的高效训练和推理，即使在非均衡任务中也可以显著提升吞吐量同时减少内存开销。作者通过实验证明，与 DeepSpeed 相比，SE-MoE 在训练和推断中的吞吐量分别提高了 33％和 13％。

May, 2022

基于专家混合的高效大规模语言建模

本文研究了自回归 MoE 语言模型在各种设置下与密集模型的规模比较，并发现除了 fine-tuning 以外，在相同预算下 MoE 模型比密集模型更加高效。该研究表明 MoE 和密集模型在任务和领域上的推广效果不同，值得进一步研究。

Dec, 2021

预训练语言模型的参数高效专家混合架构

本文提出了一种参数高效的混合专家架构，通过在专家层中共享参数矩阵中心张量的信息，并通过辅助张量增加各个专家的特异性，从而通过矩阵乘积算子来实现受量子多体物理学影响的张量分解，以解决混合专家架构中存在的参数膨胀问题，实验结果表明新方法具有更好的性能和效率。

Mar, 2022

庞大的神经网络：稀疏门控专家混合层

本文介绍了一种名为 Sparsely-Gated Mixture-of-Experts layer 的新型条件计算方法，通过使用该方法在语言建模和机器翻译等任务中获得比现有技术更好的结果，而只需在计算效率方面付出少量代价。

Jan, 2017