Jun, 2024

通过重叠激活重计算优化大型模型训练

TL;DR设计了一个新的重计算框架 Lynx,通过将重计算与训练管道中发生的通信重叠来减少开销,其中包括优化调度算法(OPT)和基于启发式的调度算法(HEU),OPT 实现了全局最优但搜索时间较长,HEU 通过应用相同调度策略于所有相同结构达到局部最优并将搜索时间减少了 99%,使用 1.3B-20B 参数的 GPT 模型的全面评估结果显示,OPT 和 HEU 在性能上都优于现有的重计算方法(例如 Megatron-LM 和 Checkmake)1.02-1.53 倍,HEU 的平均搜索时间为 0.16 秒,与 OPT 具有类似的性能。