BriefGPT.xyz
大模型
Ask
alpha
关键词
progressive layer dropping
搜索结果 - 1
利用渐进式层丢弃加速基于 Transformer 的语言模型训练
本文提出了基于渐进式层丢弃的方法,通过模型结构和训练技术的提升效率,加速了基于 Transformer 的语言模型的训练,相较于基准实验可以在每个样本上平均节省 24% 的时间,让预训练速度提高 2.5 倍,同时保持强的知识可迁移性。
PDF
4 years ago
Prev
Next