ACLDec, 2020

EarlyBERT: 早鸟抽奖票优化 BERT 训练

TL;DR本篇论文提出了 EarlyBERT,这是一种通用的计算高效的训练算法,可用于大规模语言模型的预训练和微调,通过对自注意和全连接子层进行精简,第一次在 BERT 训练的早期阶段中发现了结构优质的 winning tickets,实验结果表明,与标准 BERT 相比,EarlyBERT 能够在 35-45%的训练时间内实现相当的性能。