Mar, 2024

GRAWA:基于梯度的加权平均方法用于分布式训练深度学习模型

TL;DR我们研究了在时间受限环境下的分布式深度学习模型训练,提出了一种新算法,通过按照工作节点的梯度范数的倒数进行加权平均来推动工作节点接近计算得出的中心变量,以优先恢复优化景观中的平坦区域。我们开发了两种异步变体的算法,分别称为模型级梯度加权平均算法(MGRAWA)和层级梯度加权平均算法(LGRAWA),其不同之处在于加权方案是针对整个模型还是逐层应用。在理论方面,我们证明了该方法在凸性和非凸性设置下的收敛保证。然后,我们通过实验证明,我们的算法通过实现更快的收敛速度和恢复更好的质量和平坦的局部最优解而优于竞争方法。我们还进行了一项剔除研究,以分析该算法在更拥挤的分布式训练环境中的可扩展性。最后,我们报告说,与现有基线方法相比,我们的方法需要较少的通信频率和分布式更新。