May, 2024

基于间歇通信的分布异构学习中局部 SGD 的局限性与潜力

TL;DR本文利用现有的一阶数据异质性假设,为本地 SGD 提供了新的下界,显示了这些假设不足以证明本地更新步骤的有效性。此外,在相同的假设下,我们证明了加速小批量 SGD 的极小 - 极大优化性质,完全解决了几个问题类的分布式优化。我们的结果强调了需要更好的数据异质性模型,以了解本地 SGD 在实践中的有效性。为此,我们考虑了高阶平滑性和异质性假设,并提供了新的上界,暗示了当数据异质性较低时,本地 SGD 优于小批量 SGD。