Sep, 2019

相同和异构数据的本地随机梯度下降的更紧密理论

TL;DR本文提出了一种新的 Local SGD 方法的分析方式,去掉了不必要的假设并详细阐述了同一和异构两种数据环境下的区别,对于这两种情况,我们提高了现有理论并提供了最优步长和最优本地迭代次数。我们的界限基于一种特定于不同数据的 Local SGD 方法的新的方差概念。当 $H=1$ 时,我们恢复已知的语句以保证我们结果的紧密性。实证证据进一步验证了数据异构性对 Local SGD 性能的严重影响。