Aug, 2023

大型语言模型的持续预训练:如何(重新)热启动您的模型?

TL;DR这项研究考察了不同预热策略对大型语言模型的影响,发现重启模型预热可以提高下游性能,即使在大型下游数据集中也优于从头开始训练的模型。