Apr, 2020

预训练 Transformer 模型删除层的影响

TL;DR通过剪枝方法,本文旨在研究是否所有预训练模型的所有网络层都对下游任务有贡献,并观察剪枝对下游 GLUE 任务的影响,结果表明可将 BERT、RoBERTa 和 XLNet 模型剪枝 40%而保持最多 98%的原始性能,并证明我们的剪枝模型与使用知识蒸馏构建的模型在大小和性能方面相当。