Jan, 2024

语言建模的异步局部 SGD 训练

TL;DR本篇论文通过实证研究异步 Local-SGD 对训练语言模型的影响,发现异步 Local-SGD 相较于同步对应方法虽然更频繁地更新模型参数,但需要更多迭代才能达到收敛。主要挑战是在工作者梯度失效时全局参数的动量加速。提出了一种新方法,利用延迟 Nesterov 动量更新并根据计算速度调整工作者的本地训练步骤。在 C4 数据集上评估,该方法在每次更新步骤的困惑度方面与同步 Local-SGD 性能相当,并在墙钟时间方面显著超越其。