Jul, 2024

高效的专家修剪用于稀疏的专家混合语言模型:提升性能和减少推理成本

TL;DR在本研究中,我们引入了一种名为 EEP(Efficient Expert Pruning)的无梯度进化策略,通过对神经网络模型中的专家进行剪枝,实现更高的稀疏性并在下游任务中保持或提高性能,从而解决大型语言模型的部署问题。