Mar, 2022

高效BERT预训练的Token Dropping

TL;DR提出了一种基于token dropping方法的简单有效的预训练加速技术,可以在不影响下游任务性能的前提下,将BERT的预训练成本减少25%。该方法通过在中间层开始丢弃不重要的token,使模型更专注于重要的token,然后让最后一层重新生成完整的序列,这可以通过利用Masked Language Modeling的已建成的loss函数来实现,计算代价几乎为零。