Apr, 2021
重构网络剪枝 -- 在预训练和微调范式下
Rethinking Network Pruning -- under the Pre-train and Fine-tune Paradigm
Dongkuan Xu, Ian E.H. Yen, Jinxi Zhao, Zhibin Xiao
TL;DR本论文研究在 NLP 领域中,对预训练的 Transformers 模型采取稀疏剪枝 (sparse pruning) 技术,相较于对其通道与层数的压缩,稀疏剪枝的效果更为显著。通过基于 GLUE 数据集的实验比较,证明本论文所采用的知识感知的稀疏剪枝方法可以实现 20 倍的参数 / FLOPs 压缩并且不会明显损失模型的性能。