Oct, 2023

Compresso: 结构化剪枝与合作促使学习紧凑的大型语言模型

TL;DR通过合作的剪枝算法和大型语言模型自身,在数据收集和训练成本昂贵的挑战下,Compresso 通过在训练过程中学习最优的剪枝决策以及引入协同提示进一步增强了剪枝算法,成功将 LLaMA-7B 剪枝至 5.4B,并在阅读理解上超过 LLaMA-7B2.62%,在共同推理、阅读理解、MMLU 和 BBH 基准测试上分别获得了 2.21%、11.43%、7.04% 和 4.81% 的更高分数,明显优于一次性剪枝基线。