Jun, 2020

基于工作者数量的通信开销仅受限于本地化随机梯度下降

TL;DR本文探讨了同时跨越多个工作者并进行随机梯度下降(SGD)来加速 SGD 的方法。通过对 Local SGD 的新分析,本文证明当机器在通信变现之间进行多个本地步骤时,Local SGD 方法可以实现错误按照 $1/(nT)$ 的比例缩放,只需进行固定数量的通信,而无需不断增加通信次数。