Oct, 2019

大型语言模型的结构裁剪

TL;DR该研究通过结构化剪枝方法,以低秩分解参数化权重矩阵并在训练过程中自适应地移除秩 1 分量,提高了大型语言模型的压缩效果和训练 / 推理速度,并展示了该方法可应用于 BERT 模型的下游 fine-tuning 分类。