Jun, 2024

DataStates-LLM:大型语言模型的惰性异步检查点

TL;DRLLMs 在高维度计算机基础设施上进行训练和数据导入,为了解决大规模训练中的意外事件对学习造成的负面影响,研究如何减少 I/O 开销,提出了一种懒惰异步多级方法,通过复制模型数据的内容来降低训练过程中的干扰,实验结果显示其比现有的检查点方法具有高达 48 倍的检查点速度和 2.2 倍的全程训练时间。