Nov, 2023

超越大小:梯度如何塑造大型语言模型的剪枝决策

TL;DR预训练的大型语言模型的梯度为基础的模型修剪器(GBLM-Pruner)通过利用卡尔曼几何中的几何相互关联性明显胜过其他竞争对手,并在各种语言评估中超过了幅度修剪、Wanda 和 SparseGPT。