Oct, 2020
利用渐进式层丢弃加速基于 Transformer 的语言模型训练
Accelerating Training of Transformer-Based Language Models with Progressive Layer Dropping
Minjia Zhang, Yuxiong He
TL;DR本文提出了基于渐进式层丢弃的方法,通过模型结构和训练技术的提升效率,加速了基于 Transformer 的语言模型的训练,相较于基准实验可以在每个样本上平均节省 24% 的时间,让预训练速度提高 2.5 倍,同时保持强的知识可迁移性。