May, 2024

STAT:训练后的 Transformer 收缩

TL;DR我们提出了 STAT 算法,一种简单的算法用于修剪 transformer 模型,而无需进行任何微调。STAT 通过计算下一层权重的修正来压缩网络中的注意力头和神经元,同时保持精度,并使用一系列有原则的矩阵分解方法来压缩网络结构。该算法仅需要几分钟来压缩 BERT,并且在单个 GPU 上使用不到三个小时来压缩具有 7B 参数的模型。STAT 仅使用几百个数据示例即可保留网络输出并改进现有的无梯度修剪方法,甚至能与包括重要微调的方法竞争。我们在编码器和解码器体系结构上展示了该方法,包括 BERT,DistilBERT 和 Llama-2,并使用 GLUE,Squad 和 WikiText2 等基准测试。