ICMLMay, 2024

轻量级低精度策略用于 LLM 训练

TL;DR低精度浮点数的训练可以通过适当的误差补偿在关键位置以提供良好的性能,Collage 方法使用多组分浮点表示来准确计算带有数值误差的操作,并且通过调用新的度量方法能够追踪训练期间丢失的信息,同时针对不同的精度策略进行区分。实验结果表明,使用 Collage 进行预训练可以去除使用 32 位浮点数副本的要求,并在实践中实现与 (16, 32) 位混合精度策略相似或更好的训练性能,加速了高达 3.7 倍,内存使用量减少了约 15%至 23%。