Jul, 2023

不同方式叠加更多层:通过低秩更新进行高秩训练

TL;DR本文探讨了低秩训练技术作为训练大型神经网络的替代方法,介绍了一种名为ReLoRA的新方法,并将其应用于多达350M参数的预训练transformer语言模型的训练,并证明了与常规神经网络训练相当的性能。与此同时,我们发现ReLoRA的效率随着模型大小的增加而增加,这使其成为高效训练多十亿参数网络的有前途的方法。我们的发现揭示了低秩训练技术的潜力及其对缩放定律的影响。