Dec, 2023

剪枝语言模型:重现”稀疏可能扬声器“基准上的准确性

TL;DR在 BERT 模型的剪枝过程中,我们提出了一组成功剪枝的通用指南,包括与目标稀疏度相关的训练、稀疏化和学习率调整调度的简单方法,以及在 LLM 上进行知识蒸馏时适当参数化的重要性,这些简单的洞察力使我们在经典 BERT 剪枝基准和 SMC 基准上取得了最先进的结果,表明即使是经典的渐进磁度剪枝方法也可以以正确的方法得到竞争性的结果。