ICLRMay, 2018

本地 SGD 收敛快且通信量小

TL;DR本论文证明了局部随机梯度下降算法在凸问题上能够以与小批量随机梯度下降算法相同的速率收敛,并且与工人数量和小批量大小呈线性加速关系,其中通信轮数可以减少长达 T ^ {1/2} 个因子。