ACLMay, 2021

预训练语言模型中的超级票:从模型压缩到提高泛化能力

TL;DR该研究探讨了 Lottery Ticket Hypothesis 理论,在预训练语言模型这样极度超参数化的模型中,如何通过压缩 ratio 选定一组 “winning tickets” 子模型来匹配全模型的性能。另外观察到当 compression ratio 达到某个临界点时,性能会出现相位转变现象,我们称此时被删减对临界点最立竿见影的超票为 “super tickets”,实验证明它们对 BERT-base 和 BERT-large 的单任务微调平均得分分别有 0.9 和 1.0 的提升,多任务学习时的共享也取得了提升。