Oct, 2024
大型语言模型版本更新的学习率路径切换训练范式
A Learning Rate Path Switching Training Paradigm for Version Updates of
Large Language Models
TL;DR本研究解决了大型语言模型(LLMs)在版本更新中面临的训练成本与性能之间的权衡问题。提出了一种学习率路径切换训练范式,通过在预训练阶段采用较大学习率和在持续预训练阶段实施完整的学习率衰减过程,从而优化了训练过程。实验结果表明,该范式在保持类似预训练性能的同时,将训练成本降低至58%。