BriefGPT.xyz
Ask
alpha
关键词
warm-up strategies
搜索结果 - 1
大型语言模型的持续预训练:如何(重新)热启动您的模型?
这项研究考察了不同预热策略对大型语言模型的影响,发现重启模型预热可以提高下游性能,即使在大型下游数据集中也优于从头开始训练的模型。
PDF
a year ago
Prev
Next