Jun, 2024

失败训练:并行机器学习训练中数据一致性的影响

TL;DR通过放宽数据一致性并使用不同的参数服务器配置,本研究探讨了在并行机器学习训练期间的故障容忍性。结果表明,使用无状态参数服务器方法,即使使用过期的权重和梯度,系统仍能保持收敛,并在面临故障时提高准确性,但链式复制和检查点技术则在准确度上受到影响。这些结果表明,在服务器宕机期间允许工作节点持续生成更新,并稍后应用这些更新可以有效提高硬件利用率。此外,尽管资源使用较高,与标准检查点方法相比,无状态参数服务器方法在硬件使用方面具有类似的经济成本,这是由于常见云服务提供商的定价结构所致。