不是所有专家都是平等的:用于混合专家大型语言模型的高效专家修剪和跳过
通过逐步删除稀有的 expert,将 Mixture-of-Experts 模型缩减为单一的 dense 模型,以提高计算效率并提供较快的推理速度而保留整体性能。
Jun, 2022
在本研究中,我们引入了一种名为 EEP(Efficient Expert Pruning)的无梯度进化策略,通过对神经网络模型中的专家进行剪枝,实现更高的稀疏性并在下游任务中保持或提高性能,从而解决大型语言模型的部署问题。
Jul, 2024
通过参数卸载算法和利用 MoE LLMs 的固有属性提出一种新策略,使消费者硬件和免费 Google Colab 实例上能够运行 Mixtral-8x7B 型号的 MoE 语言模型。
Dec, 2023
Mixture-of-experts (MoE) 的内在机制及行为特征的初步研究表明神经元如同细粒度专家,在参数和行为特征方面带来了一些有趣的观察,为 MoE 框架和其他模块化架构的未来研究提供了启示。
Jun, 2024
基于混合专家的大型语言模型(如最近的 Mixtral 和 DeepSeek-MoE)在规模大小上显示出巨大潜力,其训练成本不会像密集变换器那样呈二次增长。然而,我们发现增加专家的数量会导致递减收益,因此我们建议将推理效率作为模型缩放定律的指标之一,以在相同性能下提供最好的解决方案。
Apr, 2024
大规模语言模型的扩展已经在不同领域取得了革命性的性能,但模型规模的持续增长为实际应用带来了重大挑战。本文通过动态选择和激活仅一部分专家的混合专家(MoE)方法,显著减少计算成本同时保持高性能。我们提出了一个创新的统一框架来压缩 MoE,该框架不仅无缝集成了主流压缩方法,还有助于系统地理解 MoE 压缩。在此框架中,我们从两个角度进行了压缩:专家瘦身,压缩单个专家;专家修剪,删除结构化模块。在这些基础上,我们介绍了一些激进的专家修剪技术,并提出了全面的指南,以指导从业者有效地进行 MoE 压缩。广泛的实验结果验证了我们框架下的压缩方法和指南的有效性,实现了 6.05 倍的加速和仅 20.0GB 的内存使用,同时保持了对 Mixtral-8x7B 超过 92% 的性能。
Jun, 2024
本研究主要通过提出一种计算较为高效的方法 Merging Experts into One(MEO)来降低计算成本,并通过实验证明其优越性以及如何进一步提高效率和性能。
Oct, 2023
EdgeMoE 是面向边缘设备的第一个在设备上推理引擎,针对稀疏 LLMs 的一种流行变体,它通过在存储层次结构中策略性地分割模型,实现了内存和计算效率的提升。它使用两种创新技术来降低专家 I/O 交换的开销,经过实证评估,与竞争性基线解决方案相比,EdgeMoE 在内存节省和性能改进方面展现出显著优势。
Aug, 2023
为了更好地帮助开源社区了解基于混合专家的大型语言模型,我们训练并发布了一系列完全开源和可复现的仅解码器类型的混合专家语言模型,参数范围从 650M 到 34B,训练语料超过 1T 个标记。我们的调查确认了基于混合专家的大型语言模型可以提供更有利的成本效益权衡,突出了未来大型语言模型发展的潜在有效性。该研究的另一个重要贡献是对我们 OpenMoE 模型中的路由机制进行深入分析,得出了三个重要发现:上下文无关专业化、早期路由学习和朝末尾丢弃。我们发现,混合专家模型中的路由决策主要基于标记 ID,与上下文相关性较小。标记对专家的分配在预训练阶段早期确定,并且在很大程度上保持不变。这种不完美的路由可能导致性能下降,尤其是在多轮对话等顺序任务中,较后出现的标记更有可能被丢弃。最后,我们根据上述观察和分析重新思考了设计。为了促进未来的混合专家语言模型发展,我们提出了减轻发现的问题并进一步改进现成混合专家语言模型设计的潜在策略。
Jan, 2024
本文提出了一种参数高效的混合专家架构,通过在专家层中共享参数矩阵中心张量的信息,并通过辅助张量增加各个专家的特异性,从而通过矩阵乘积算子来实现受量子多体物理学影响的张量分解,以解决混合专家架构中存在的参数膨胀问题,实验结果表明新方法具有更好的性能和效率。
Mar, 2022