Jul, 2024

重用而非重新训练:持续语言模型预训练的方案

TL;DR通过重复使用训练好的模型,以及使用高效的数据分布和学习率调度设计,我们在继续预训练的过程中相比于基准的预训练集继续训练,展示了平均模型准确率提高9%的改善,这一成果为发展语言模型提供了实用的起点。