EMNLPFeb, 2020

Theseus 的 BERT:通过渐进式模块替换压缩 BERT

TL;DR本文提出了一种使用渐进模块替换的新型模型压缩方法来有效压缩 BERT。通过在训练中逐步增加替换的概率,使得我们的方法在原始和紧凑模型之间带来了更深入的交互,同时不需要引入任何额外的损失函数,在 GLUE 基准测试中,我们的方法优于现有的知识蒸馏方法,展示了一种新的模型压缩视角。