Apr, 2021
重构网络剪枝--在预训练和微调范式下
Rethinking Network Pruning -- under the Pre-train and Fine-tune Paradigm
TL;DR本论文研究在 NLP 领域中,对预训练的Transformers 模型采取稀疏剪枝 (sparse pruning)技术,相较于对其通道与层数的压缩,稀疏剪枝的效果更为显著。通过基于 GLUE 数据集的实验比较,证明本论文所采用的知识感知的稀疏剪枝方法可以实现20倍的参数/FLOPs压缩并且不会明显损失模型的性能。