Oct, 2020

利用渐进式层丢弃加速基于 Transformer 的语言模型训练

TL;DR本文提出了基于渐进式层丢弃的方法,通过模型结构和训练技术的提升效率,加速了基于 Transformer 的语言模型的训练,相较于基准实验可以在每个样本上平均节省 24% 的时间,让预训练速度提高 2.5 倍,同时保持强的知识可迁移性。