Feb, 2024

通过渐进子网络实现高效的分步预训练

TL;DR近期大型语言模型的发展引发了对高效预训练方法的关注,本论文提出了一种阶段递增训练的替代框架 -- 渐进子网络训练,其中的一个简单实例是随机路径训练(RaPTr),通过在每一步中只训练模型内的子路径,逐步增加路径长度,RaPTr 可以在对 BERT 和 UL2 语言模型进行更好的预训练损失的同时,相比标准训练,减少 20-33%的 FLOPs,并在其他高效训练方法中具备竞争力甚至更好。此外,RaPTr 在 UL2 上表现出更好的下游性能,对 QA 任务和 SuperGLUE 的改进幅度相比标准训练和堆叠模型可达 1-5%。最后,我们为 RaPTr 提供了理论基础,以证明(a)子网络在各阶段的复杂性递增,以及(b)由于残差连接和层归一化而导致的损失在阶段转换中的稳定性。