EMNLPSep, 2021

快速 Transformer 的块剪枝

TL;DR本文提出了一种针对小型、快速模型的块删剪方法,可同时考虑任何大小的块并将其结构整合到微调的移动删剪范例中。这种方法可以学习删剪出底层模型的完整组件,包括注意头,比如,实验结果在速度和大小上与精简模型相比相当有竞争力,SQuAD v1 上的 2.4 倍速度、74% 更小的 BERT,F1 减少 1%。