通过统一框架解构混合专家的压缩

Jun, 2024

通过统一框架解构混合专家的压缩

Demystifying the Compression of Mixture-of-Experts Through a Unified Framework

Shwai He, Daize Dong, Liang Ding, Ang Li

TL;DR大规模语言模型的扩展已经在不同领域取得了革命性的性能，但模型规模的持续增长为实际应用带来了重大挑战。本文通过动态选择和激活仅一部分专家的混合专家（MoE）方法，显著减少计算成本同时保持高性能。我们提出了一个创新的统一框架来压缩 MoE，该框架不仅无缝集成了主流压缩方法，还有助于系统地理解 MoE 压缩。在此框架中，我们从两个角度进行了压缩：专家瘦身，压缩单个专家；专家修剪，删除结构化模块。在这些基础上，我们介绍了一些激进的专家修剪技术，并提出了全面的指南，以指导从业者有效地进行 MoE 压缩。广泛的实验结果验证了我们框架下的压缩方法和指南的有效性，实现了 6.05 倍的加速和仅 20.0GB 的内存使用，同时保持了对 Mixtral-8x7B 超过 92% 的性能。

Abstract

scaling large language models has revolutionized the performance across diverse domains, yet the continual growth in model size poses significant challenges for real-world deployment. The →

scaling large language models mixture of experts compression techniques moe compression

发现论文，激发创造

将专家合并为一体：提高混合专家的计算效率

本研究主要通过提出一种计算较为高效的方法 Merging Experts into One（MEO）来降低计算成本，并通过实验证明其优越性以及如何进一步提高效率和性能。

Oct, 2023

不是所有专家都是平等的：用于混合专家大型语言模型的高效专家修剪和跳过

通过引入插拔式专家级稀疏化技术，本文主要针对 MoE LLMs 的部署效率进行了改进，提出了任务无关和任务特定的专家修剪和跳过方法，从而同时减小模型大小、增加推理速度并保持满意的性能。

Feb, 2024

多任务多语种模型的可扩展高效 MoE 训练

采用 Mixture of Experts 模型、多维并行技术和 DeepSpeed 库支持的系统，成功训练出拥有数百万参数的高效的多语言生成模型，同时提升了模型的样本效率和推断时间效率。

Sep, 2021

HyperMoE: 通过专家之间的迁移改进更好的专家混合

HyperMoE 是一种基于 Hypernetworks 的新型 Mixture of Experts (MoE) 框架，通过利用未选择的专家生成的特定模块作为补充信息，实现在保持选择稀疏性的同时利用未选择的专家的知识，从而在相同条件下显著优于现有 MoE 方法。

Feb, 2024

Uni-MoE：使用专家混合方法扩展统一多模态 LLMs

开发一种用于多模态大型语言模型的混合专家 (Uni-MoE) 架构，具有一致的多模态表示，通过稀疏的模态级数据并行和专家级模型并行实现高效的训练和推理，进一步减少性能偏差，并提高多专家的协作和泛化能力。

May, 2024

专家稀疏混合模型的任务特定剪枝

通过逐步删除稀有的 expert，将 Mixture-of-Experts 模型缩减为单一的 dense 模型，以提高计算效率并提供较快的推理速度而保留整体性能。

Jun, 2022

大型语言模型中混合专家的更深入研究

Mixture-of-experts (MoE) 的内在机制及行为特征的初步研究表明神经元如同细粒度专家，在参数和行为特征方面带来了一些有趣的观察，为 MoE 框架和其他模块化架构的未来研究提供了启示。

Jun, 2024

面向推理最优的混合专家大语言模型

基于混合专家的大型语言模型（如最近的 Mixtral 和 DeepSeek-MoE）在规模大小上显示出巨大潜力，其训练成本不会像密集变换器那样呈二次增长。然而，我们发现增加专家的数量会导致递减收益，因此我们建议将推理效率作为模型缩放定律的指标之一，以在相同性能下提供最好的解决方案。

Apr, 2024

细粒度专家混合的比例尺定律

通过分析扩展的变量范围，我们建立了适用于细粒度混合专家模型的扩展规模定律，并利用这些规律为特定计算预算推导出最佳的训练配置，结果显示 Mixture of Experts 模型在规模和训练预算扩大时始终优于密集 Transformer 模型。此外，我们证明在几乎任何计算预算下，将专家的大小设置成与前馈层相似的常见做法并不是最优的。

Feb, 2024

融合然后压缩：从其路由策略中揭示高效 SMoE

通过专家融合和神经元排列对信息进行压缩，MC-SMoE 模型实现了高效的神经网络学习，降低了内存和计算资源的需求。

Oct, 2023