通过动态专家交换在资源受限的边缘设备上提供 MoE 模型服务
采用 Mixture of Experts 模型、多维并行技术和 DeepSpeed 库支持的系统,成功训练出拥有数百万参数的高效的多语言生成模型,同时提升了模型的样本效率和推断时间效率。
Sep, 2021
通过逐步删除稀有的 expert,将 Mixture-of-Experts 模型缩减为单一的 dense 模型,以提高计算效率并提供较快的推理速度而保留整体性能。
Jun, 2022
我们的研究展示了混合专家架构的多样性,即使在严格的参数约束下,也能提供稳健的性能,并通过唯一地将 MoE 架构与轻量级专家相结合,提出了极其高效的 MoE 架构,推动了 MoE 的极限。
Sep, 2023
本文提出了 SE-MoE 模型,通过引入 Elastic MoE training、2D prefetch 和 Fusion communication 等技术,实现 Mixture-of-Experts 模型在分布式、异构计算系统上的高效训练和推理,即使在非均衡任务中也可以显著提升吞吐量同时减少内存开销。作者通过实验证明,与 DeepSpeed 相比,SE-MoE 在训练和推断中的吞吐量分别提高了 33%和 13%。
May, 2022
本文提出了三种 Mixture-of-Experts (MoE)模型的优化技术,分别为动态门控、专家缓存和专家负载均衡,其中动态门控技术可以在多达 5 倍的性能提升的同时减少 GPU 内存的使用,而专家缓存技术可以通过只在 GPU 内存中缓存热门专家来减少最高可达 1.47 倍的静态内存分配。这些技术能够提高该 MoE 模型的效率并使得其更容易部署到实际应用中。
Mar, 2023
本文提出了一种名为 FlexMoE 的 DNN 训练框架,通过动态专家管理和设备布置机制,以及调度模块来优化大规模预训练模型训练过程中动态数据流所导致的效率问题,实验表明其在自然语言处理模型和视觉模型等领域具有较强的可扩展性和优越的性能。
Apr, 2023
EdgeMoE 是面向边缘设备的第一个在设备上推理引擎,针对稀疏 LLMs 的一种流行变体,它通过在存储层次结构中策略性地分割模型,实现了内存和计算效率的提升。它使用两种创新技术来降低专家 I/O 交换的开销,经过实证评估,与竞争性基线解决方案相比,EdgeMoE 在内存节省和性能改进方面展现出显著优势。
Aug, 2023
通过参数卸载算法和利用 MoE LLMs 的固有属性提出一种新策略,使消费者硬件和免费 Google Colab 实例上能够运行 Mixtral-8x7B 型号的 MoE 语言模型。
Dec, 2023
通过转换部分节点间通信为节点内通信的路由策略,我们提出了一种新颖的负载均衡和局部性相结合的路由策略,并在 PanGu-Sigma 模型上进行了改进,实验证明该路由策略减少了每轮训练时间约 12.68% 至 22.24%,而不影响模型的准确性。
Jan, 2024
本研究提出了 Mixture of Expert Clusters 模型,通过在路由阶段引入基于方差的约束来促进专家层学习更多不同和适当的知识,并提出了一种专家集群结构的集群级别专家丢失策略。实验证明,该模型可以提高机器翻译和自然语言理解任务的性能,并在有限数据条件下扩展专家的性能上限,对缓解过度拟合和稀疏数据分配问题起到积极作用。
Jul, 2022