混合专家语言模型的快速推断与卸载

Dec, 2023

混合专家语言模型的快速推断与卸载

Fast Inference of Mixture-of-Experts Language Models with Offloading

Artyom Eliseev, Denis Mazur

TL;DR通过参数卸载算法和利用 MoE LLMs 的固有属性提出一种新策略，使消费者硬件和免费 Google Colab 实例上能够运行 Mixtral-8x7B 型号的 MoE 语言模型。

Abstract

With the widespread adoption of large language models (LLMs), many deep learning practitioners are looking for strategies of running these models more efficiently. One such strategy is to use sparse mixture-of-experts

large language models mixture-of-experts model architectures moe-based language models parameter offloading algorithms

发现论文，激发创造

多任务多语种模型的可扩展高效 MoE 训练

采用 Mixture of Experts 模型、多维并行技术和 DeepSpeed 库支持的系统，成功训练出拥有数百万参数的高效的多语言生成模型，同时提升了模型的样本效率和推断时间效率。

Sep, 2021

基于专家混合的高效大规模语言建模

本文研究了自回归 MoE 语言模型在各种设置下与密集模型的规模比较，并发现除了 fine-tuning 以外，在相同预算下 MoE 模型比密集模型更加高效。该研究表明 MoE 和密集模型在任务和领域上的推广效果不同，值得进一步研究。

Dec, 2021

EdgeMoE: 基于 MoE 的大规模语言模型的快速设备上推断

EdgeMoE 是面向边缘设备的第一个在设备上推理引擎，针对稀疏 LLMs 的一种流行变体，它通过在存储层次结构中策略性地分割模型，实现了内存和计算效率的提升。它使用两种创新技术来降低专家 I/O 交换的开销，经过实证评估，与竞争性基线解决方案相比，EdgeMoE 在内存节省和性能改进方面展现出显著优势。

Aug, 2023

面向推理最优的混合专家大语言模型

基于混合专家的大型语言模型（如最近的 Mixtral 和 DeepSeek-MoE）在规模大小上显示出巨大潜力，其训练成本不会像密集变换器那样呈二次增长。然而，我们发现增加专家的数量会导致递减收益，因此我们建议将推理效率作为模型缩放定律的指标之一，以在相同性能下提供最好的解决方案。

Apr, 2024

密集训练，稀疏推断：重思混合专家语言模型的训练

通过采用密集计算进行训练和稀疏计算进行推理的混合密集与稀疏混合模型 (DS-MoE)，在保持性能的同时实现了强大的计算和参数效率，比标准稀疏 MoE 更具参数效率，在总参数大小和性能方面与密集模型持平，而且计算成本更低。

Apr, 2024

MoNDE: 大规模稀疏模型的近数据专家混合

提出了一种近数据计算解决方案 MoNDE，通过仅传输热门专家到 GPU，将专家参数的传输转换为小型激活的传输，从而实现更高效的 MoE 推断，对于编码器和解码器操作都能实现显著加速。

May, 2024

大型语言模型中混合专家的更深入研究

Mixture-of-experts (MoE) 的内在机制及行为特征的初步研究表明神经元如同细粒度专家，在参数和行为特征方面带来了一些有趣的观察，为 MoE 框架和其他模块化架构的未来研究提供了启示。

Jun, 2024

专家稀疏混合模型的任务特定剪枝

通过逐步删除稀有的 expert，将 Mixture-of-Experts 模型缩减为单一的 dense 模型，以提高计算效率并提供较快的推理速度而保留整体性能。

Jun, 2022

不是所有专家都是平等的：用于混合专家大型语言模型的高效专家修剪和跳过

通过引入插拔式专家级稀疏化技术，本文主要针对 MoE LLMs 的部署效率进行了改进，提出了任务无关和任务特定的专家修剪和跳过方法，从而同时减小模型大小、增加推理速度并保持满意的性能。

Feb, 2024

走向 MoE 部署：缓解专家混合（MoE）推断中的低效率

本文提出了三种 Mixture-of-Experts （MoE）模型的优化技术，分别为动态门控、专家缓存和专家负载均衡，其中动态门控技术可以在多达 5 倍的性能提升的同时减少 GPU 内存的使用，而专家缓存技术可以通过只在 GPU 内存中缓存热门专家来减少最高可达 1.47 倍的静态内存分配。这些技术能够提高该 MoE 模型的效率并使得其更容易部署到实际应用中。

Mar, 2023