Oct, 2023

Compresso: 结构化剪枝与合作促使学习紧凑的大型语言模型

TL;DR通过合作的剪枝算法和大型语言模型自身,在数据收集和训练成本昂贵的挑战下,Compresso通过在训练过程中学习最优的剪枝决策以及引入协同提示进一步增强了剪枝算法,成功将LLaMA-7B剪枝至5.4B,并在阅读理解上超过LLaMA-7B2.62%,在共同推理、阅读理解、MMLU和BBH基准测试上分别获得了2.21%、11.43%、7.04%和4.81%的更高分数,明显优于一次性剪枝基线。