EMNLPMay, 2020

当 BERT 玩彩票时,每张彩票都是获胜的

TL;DR本文从彩票猜想的角度探究了大型基于 Transformer 的模型可以通过剪枝获得可比拟完整模型性能的子网络。使用结构剪枝和数量剪枝对 Fine-tuned BERT 进行实验,发现即使是最差的子网络也表现良好,表明预训练 BERT 的大多数权重可能都是有用的。