ACLMar, 2022

高效 BERT 预训练的 Token Dropping

TL;DR提出了一种基于 token dropping 方法的简单有效的预训练加速技术,可以在不影响下游任务性能的前提下,将 BERT 的预训练成本减少 25%。该方法通过在中间层开始丢弃不重要的 token,使模型更专注于重要的 token,然后让最后一层重新生成完整的序列,这可以通过利用 Masked Language Modeling 的已建成的 loss 函数来实现,计算代价几乎为零。