Sep, 2024

智能扩展:利用小模型初始化加速大型语言模型预训练

TL;DR本研究解决了大型语言模型预训练阶段效率低下的问题,提出了一种名为HyperCloning的新方法,用小模型对大型模型进行初始化。这种方法使大型模型在训练前继承小模型的预测能力,从而显著减少预训练所需的GPU时间。