ACLDec, 2020
EarlyBERT: 早鸟抽奖票优化 BERT 训练
EarlyBERT: Efficient BERT Training via Early-bird Lottery Tickets
Xiaohan Chen, Yu Cheng, Shuohang Wang, Zhe Gan, Zhangyang Wang...
TL;DR本篇论文提出了 EarlyBERT,这是一种通用的计算高效的训练算法,可用于大规模语言模型的预训练和微调,通过对自注意和全连接子层进行精简,第一次在 BERT 训练的早期阶段中发现了结构优质的 winning tickets,实验结果表明,与标准 BERT 相比,EarlyBERT 能够在 35-45%的训练时间内实现相当的性能。