融合然后压缩：从其路由策略中揭示高效 SMoE

Oct, 2023

融合然后压缩：从其路由策略中揭示高效 SMoE

Merge, Then Compress: Demystify Efficient SMoE with Hints from Its Routing Policy

Pingzhi Li, Zhenyu Zhang, Prateek Yadav, Yi-Lin Sung, Yu Cheng...

TL;DR通过专家融合和神经元排列对信息进行压缩，MC-SMoE 模型实现了高效的神经网络学习，降低了内存和计算资源的需求。

Abstract

sparsely activated mixture-of-experts (smoe) has shown promise to scale up the learning capacity of neural networks, however, they have issues like (a) High Memory Usage, due to duplication of the network layers

sparsely activated mixture-of-experts smoe expert merging neuron permutation alignment mc-smoe

发现论文，激发创造

CompeteSMoE - 通过竞争有效训练稀疏专家混合模型

通过引入竞争机制来解决稀疏专家混合（SMoE）的表示坍塌问题，我们提出了 CompeteSMoE 算法，通过部署一个简单的路由器来预测竞争结果，从而在保持低计算开销的同时实现了强大的性能提升。我们在两个变压器架构和各种任务上进行了广泛的实证评估，表明 CompeteSMoE 相对于最先进的 SMoE 策略而言具有高效性、鲁棒性和可扩展性。

Feb, 2024

SimSMoE: 通过相似度测量解决表示崩溃问题

给定一个固定的计算负载预算，基于相似性的稀疏专家混合模型 (SimSMoE) 解决了专家之间表示崩塌问题，提升了大型语言模型的性能和可伸缩性。

Jun, 2024

通过统一框架解构混合专家的压缩

大规模语言模型的扩展已经在不同领域取得了革命性的性能，但模型规模的持续增长为实际应用带来了重大挑战。本文通过动态选择和激活仅一部分专家的混合专家（MoE）方法，显著减少计算成本同时保持高性能。我们提出了一个创新的统一框架来压缩 MoE，该框架不仅无缝集成了主流压缩方法，还有助于系统地理解 MoE 压缩。在此框架中，我们从两个角度进行了压缩：专家瘦身，压缩单个专家；专家修剪，删除结构化模块。在这些基础上，我们介绍了一些激进的专家修剪技术，并提出了全面的指南，以指导从业者有效地进行 MoE 压缩。广泛的实验结果验证了我们框架下的压缩方法和指南的有效性，实现了 6.05 倍的加速和仅 20.0GB 的内存使用，同时保持了对 Mixtral-8x7B 超过 92% 的性能。

Jun, 2024

M6-T：探索稀疏专家模型及其进展

本文研究了稀疏专家模型中的关键因素，提出了专家原型法以改善模型质量，同时将模型规模扩大到 1 万亿参数，实现了与 TPU 相同的加速。

May, 2021

将专家合并为一体：提高混合专家的计算效率

本研究主要通过提出一种计算较为高效的方法 Merging Experts into One（MEO）来降低计算成本，并通过实验证明其优越性以及如何进一步提高效率和性能。

Oct, 2023

HyperMoE: 通过专家之间的迁移改进更好的专家混合

HyperMoE 是一种基于 Hypernetworks 的新型 Mixture of Experts (MoE) 框架，通过利用未选择的专家生成的特定模块作为补充信息，实现在保持选择稀疏性的同时利用未选择的专家的知识，从而在相同条件下显著优于现有 MoE 方法。

Feb, 2024

多头专家混合

多头专家混合模型 (MH-MoE) 使用多头机制将每个令牌拆分为多个子令牌，并并行分配给和处理多样的专家集，然后无缝地重新集成到原始令牌形式，从而增强了训练中的专家激活，深化了上下文理解，减轻过拟合，同时易于实施和与其他 SMoE 模型集成，对英语和多语言模型以及多模态建模任务进行了大量实验，证明了 MH-MoE 的有效性。

Apr, 2024

MoEC: 专家混合聚类

本研究提出了 Mixture of Expert Clusters 模型，通过在路由阶段引入基于方差的约束来促进专家层学习更多不同和适当的知识，并提出了一种专家集群结构的集群级别专家丢失策略。实验证明，该模型可以提高机器翻译和自然语言理解任务的性能，并在有限数据条件下扩展专家的性能上限，对缓解过度拟合和稀疏数据分配问题起到积极作用。

Jul, 2022

专家稀疏混合模型的任务特定剪枝

通过逐步删除稀有的 expert，将 Mixture-of-Experts 模型缩减为单一的 dense 模型，以提高计算效率并提供较快的推理速度而保留整体性能。

Jun, 2022

自适应路由的专家软融合

本文提出了 Soft Merging of Experts with Adaptive Routing（SMEAR）算法，通过使用加权平均的单个合并专家，避免了离散路由，同时实现了标准梯度上升训练。 SEMENT 不仅不会增加计算成本，而且比使用元数据路由或通过梯度估计学习稀疏路由的模型性能更好，同时表明通过 SMEAR 学习到的专家具有显着的特化性。

Jun, 2023