Feb, 2024

不是所有专家都是平等的:用于混合专家大型语言模型的高效专家修剪和跳过

TL;DR通过引入插拔式专家级稀疏化技术,本文主要针对 MoE LLMs 的部署效率进行了改进,提出了任务无关和任务特定的专家修剪和跳过方法,从而同时减小模型大小、增加推理速度并保持满意的性能。