Feb, 2024

NutePrune: 高效、逐步精简大型语言模型的多个教师

TL;DR大规模语言模型在资源受限的硬件上部署具有挑战性,本研究提出了一种高效的结构剪枝算法 NutePrune,通过逐步引导剪枝模型的方法,在保持整体性能的同时,减小了内存开销和提高了推理速度。