Jul, 2024

跨语言持续预训练在规模上的突破

TL;DR本文研究了以持续预训练(CPT)的方式构建新语言的大型语言模型(LLMs),并通过 40 个模型规模的并行实验表明:1)CPT 能够快速收敛并以可扩展的方式节省大量计算资源;2)CPT 遵循 Hoffmann 等人(2022)提出的扩展缩放定律,具有联合数据 - 参数缩放项;3)根据估计的扩展因子,CPT 的计算最优数据 - 参数分配存在显著差异;4)在训练持续时间和语言属性的影响下,规模化的迁移效果可以通过数据重播的方法有效减轻灾难性遗忘。希望我们的发现对研究界在规模化 LLMs 的可迁移性方面提供深入的见解。