Jun, 2024

FastPersist:加速深度学习中的模型检查点

TL;DRFastPersist 通过结合 NVMe 的优化、有效的写并行化以及与独立的训练计算重叠的检查点创建方式,实现了在持久存储中创建检查点的加速,相比基线方法快速 116 倍,并实现了每次迭代检查点的无可忽略开销。