Jun, 2024

通用检查点:大规模分布式训练的高效灵活检查点

TL;DR分布式训练中现有的检查点方法对于硬件限制来说似乎并不适用,虽然模型并行(即在多个加速器上分割模型状态)是模型扩展的要求。为了解决这个问题,我们提出了一种名为 “通用检查点” 的技术,它在提供高效的检查点创建的同时,使得可以在任意并行策略和硬件配置上恢复训练,从而为大规模训练解锁了前所未有的能力。