本文提出一种新的混合专家神经网络架构(MoE),并采用三维混合并行算法,结合张量、专家和数据并行,进行内存和通信优化,极大地提高了 MoE 模型的训练效率和精度。
Mar, 2023
本文研究了稀疏专家模型中的关键因素,提出了专家原型法以改善模型质量,同时将模型规模扩大到 1 万亿参数,实现了与 TPU 相同的加速。
May, 2021
通过引入插拔式专家级稀疏化技术,本文主要针对 MoE LLMs 的部署效率进行了改进,提出了任务无关和任务特定的专家修剪和跳过方法,从而同时减小模型大小、增加推理速度并保持满意的性能。
Feb, 2024
我们的研究引入了 SEER-MoE,这是一个新颖的两阶段框架,用于减少预训练 MoE 模型的内存占用和计算需求。第一阶段通过使用重要数据计数指导来修剪专家的总数,而第二阶段采用基于正则化的微调策略来恢复准确性损失并减少推断过程中激活的专家数量。我们的实证研究证明了我们的方法的有效性,使得经过优化的稀疏 MoEs 模型在推断效率方面具有最小的准确性妥协。
Apr, 2024
采用 Mixture of Experts 模型、多维并行技术和 DeepSpeed 库支持的系统,成功训练出拥有数百万参数的高效的多语言生成模型,同时提升了模型的样本效率和推断时间效率。
Sep, 2021
在这篇论文中,我们探索了稀疏专家混合模型(Sparse MoE)在各种关键因素下的泛化误差,并从经典学习理论的角度提供了如何使用稀疏性来提高混合模型泛化性能的见解。
Mar, 2024
我们的研究展示了混合专家架构的多样性,即使在严格的参数约束下,也能提供稳健的性能,并通过唯一地将 MoE 架构与轻量级专家相结合,提出了极其高效的 MoE 架构,推动了 MoE 的极限。
Sep, 2023
本研究提出了 Mixture of Expert Clusters 模型,通过在路由阶段引入基于方差的约束来促进专家层学习更多不同和适当的知识,并提出了一种专家集群结构的集群级别专家丢失策略。实验证明,该模型可以提高机器翻译和自然语言理解任务的性能,并在有限数据条件下扩展专家的性能上限,对缓解过度拟合和稀疏数据分配问题起到积极作用。
Jul, 2022
通过参数卸载算法和利用 MoE LLMs 的固有属性提出一种新策略,使消费者硬件和免费 Google Colab 实例上能够运行 Mixtral-8x7B 型号的 MoE 语言模型。
Dec, 2023
在本研究中,我们引入了一种名为 EEP(Efficient Expert Pruning)的无梯度进化策略,通过对神经网络模型中的专家进行剪枝,实现更高的稀疏性并在下游任务中保持或提高性能,从而解决大型语言模型的部署问题。
Jul, 2024