通过动态专家交换在资源受限的边缘设备上提供 MoE 模型服务

Aug, 2023

通过动态专家交换在资源受限的边缘设备上提供 MoE 模型服务

Serving MoE Models on Resource-constrained Edge Devices via Dynamic Expert Swapping

Rui Kong, Yuanchun Li, Qingtian Feng, Weijun Wang, Linghe Kong...

TL;DR基于连续推理的资源受限混合专家模型 (PC-MoE) 能有效降低资源消耗和增加模型准确性。

Abstract

mixture of experts (MoE) is a popular technique in deep learning that improves model capacity with conditionally-activated parallel neural network modules (experts). However, serving moe models in →

mixture of experts moe models resource-constrained continuous inference pc-moe

发现论文，激发创造

多任务多语种模型的可扩展高效 MoE 训练

采用 Mixture of Experts 模型、多维并行技术和 DeepSpeed 库支持的系统，成功训练出拥有数百万参数的高效的多语言生成模型，同时提升了模型的样本效率和推断时间效率。

Sep, 2021

专家稀疏混合模型的任务特定剪枝

通过逐步删除稀有的 expert，将 Mixture-of-Experts 模型缩减为单一的 dense 模型，以提高计算效率并提供较快的推理速度而保留整体性能。

Jun, 2022

推动专家混合模型的极限：非常参数高效的指令调优 MoE

我们的研究展示了混合专家架构的多样性，即使在严格的参数约束下，也能提供稳健的性能，并通过唯一地将 MoE 架构与轻量级专家相结合，提出了极其高效的 MoE 架构，推动了 MoE 的极限。

Sep, 2023

SE-MoE：一种可扩展且高效的专家混合分布式训练和推断系统

本文提出了 SE-MoE 模型，通过引入 Elastic MoE training、2D prefetch 和 Fusion communication 等技术，实现 Mixture-of-Experts 模型在分布式、异构计算系统上的高效训练和推理，即使在非均衡任务中也可以显著提升吞吐量同时减少内存开销。作者通过实验证明，与 DeepSpeed 相比，SE-MoE 在训练和推断中的吞吐量分别提高了 33％和 13％。

May, 2022

走向 MoE 部署：缓解专家混合（MoE）推断中的低效率

本文提出了三种 Mixture-of-Experts （MoE）模型的优化技术，分别为动态门控、专家缓存和专家负载均衡，其中动态门控技术可以在多达 5 倍的性能提升的同时减少 GPU 内存的使用，而专家缓存技术可以通过只在 GPU 内存中缓存热门专家来减少最高可达 1.47 倍的静态内存分配。这些技术能够提高该 MoE 模型的效率并使得其更容易部署到实际应用中。

Mar, 2023

FlexMoE: 通过动态设备放置实现大规模稀疏预训练模型训练的扩展

本文提出了一种名为 FlexMoE 的 DNN 训练框架，通过动态专家管理和设备布置机制，以及调度模块来优化大规模预训练模型训练过程中动态数据流所导致的效率问题，实验表明其在自然语言处理模型和视觉模型等领域具有较强的可扩展性和优越的性能。

Apr, 2023

EdgeMoE: 基于 MoE 的大规模语言模型的快速设备上推断

EdgeMoE 是面向边缘设备的第一个在设备上推理引擎，针对稀疏 LLMs 的一种流行变体，它通过在存储层次结构中策略性地分割模型，实现了内存和计算效率的提升。它使用两种创新技术来降低专家 I/O 交换的开销，经过实证评估，与竞争性基线解决方案相比，EdgeMoE 在内存节省和性能改进方面展现出显著优势。

Aug, 2023

混合专家语言模型的快速推断与卸载

通过参数卸载算法和利用 MoE LLMs 的固有属性提出一种新策略，使消费者硬件和免费 Google Colab 实例上能够运行 Mixtral-8x7B 型号的 MoE 语言模型。

Dec, 2023

LocMoE：一种用于大型语言模型训练的低开销 MoE

通过转换部分节点间通信为节点内通信的路由策略，我们提出了一种新颖的负载均衡和局部性相结合的路由策略，并在 PanGu-Sigma 模型上进行了改进，实验证明该路由策略减少了每轮训练时间约 12.68% 至 22.24%，而不影响模型的准确性。

Jan, 2024

MoEC: 专家混合聚类

本研究提出了 Mixture of Expert Clusters 模型，通过在路由阶段引入基于方差的约束来促进专家层学习更多不同和适当的知识，并提出了一种专家集群结构的集群级别专家丢失策略。实验证明，该模型可以提高机器翻译和自然语言理解任务的性能，并在有限数据条件下扩展专家的性能上限，对缓解过度拟合和稀疏数据分配问题起到积极作用。

Jul, 2022