Nov, 2020

单次元元剪枝:减少注意力头部无关部分

TL;DR本文提出了一种称为 Single-Shot Meta-Pruning 的方法,该方法致力于压缩深度预训练的 Transformer 模型,并集中于可以自适应地为不同的下游任务剪枝不必要的注意力头。与现有的预训练模型压缩方法相比,我们的方法可以降低精调和推理的开销,并且可以选择性地剪枝 50%的注意力头,对下游任务的性能几乎没有影响,甚至提供更好的文本表示。