MMOct, 2019

周期平均的本地随机梯度下降:更紧密的分析和自适应同步

TL;DR本文研究了一种名为 local distributed SGD 的分布式优化算法,其中数据在计算节点之间进行划分,计算节点进行本地更新,定期交换模型以进行平均化,并对其进行收敛分析,结果表明它可以大大降低通信成本并且适用性比当前理论推测的更为广泛,同时提出了一种自适应同步方案,验证理论和方案的实验结果在 AWS EC2 云和内部 GPU 集群上运行良好。