Nov, 2021
一次性剪枝:稀疏预训练语言模型
Prune Once for All: Sparse Pre-Trained Language Models
TL;DR通过结合权重剪枝和模型蒸馏技术,我们提出了一种新的方法,用于训练稀疏的预训练变压器语言模型,这些模型可以快速高效地用于各种自然语言处理任务,并保持其稀疏性,同时我们进一步使用量化感知训练来将这些稀疏模型压缩为8位精度。我们证明了我们的稀疏预训练 BERT-Base、BERT-Large 和 DistilBERT 可以在多种自然语言任务中以极小的准确度损失传输其知识,是目前压缩-to-准确度比率最好的压缩BERT-Base、BERT-Large和DistilBERT方法。