Jun, 2020

基于工作者数量的通信开销仅受限于本地化随机梯度下降

TL;DR本文探讨了同时跨越多个工作者并进行随机梯度下降(SGD)来加速SGD的方法。通过对Local SGD的新分析,本文证明当机器在通信变现之间进行多个本地步骤时,Local SGD方法可以实现错误按照$1/(nT)$的比例缩放,只需进行固定数量的通信,而无需不断增加通信次数。