Jul, 2024
高效的专家修剪用于稀疏的专家混合语言模型:提升性能和减少推理成本
Efficient Expert Pruning for Sparse Mixture-of-Experts Language Models: Enhancing Performance and Reducing Inference Costs
Enshu Liu, Junyi Zhu, Zinan Lin, Xuefei Ning, Matthew B. Blaschko...
TL;DR在本研究中,我们引入了一种名为 EEP(Efficient Expert Pruning)的无梯度进化策略,通过对神经网络模型中的专家进行剪枝,实现更高的稀疏性并在下游任务中保持或提高性能,从而解决大型语言模型的部署问题。