Feb, 2020

局部 SGD 比小批量 SGD 更好吗?

TL;DR本文研究了局部 SGD(也称为并行 SGD 和联邦平均),一个自然且常用的随机分布式优化方法。在凸设置中,我们证明了局部 SGD 严格优于小批量 SGD,并且加速局部 SGD 在凸二次目标上是最小极值最优的。同时,我们还提供了总体上至少有时优于小批量 SGD 的第一个保证,并展示了局部 SGD 存在一种性能下限,比小批量 SGD 保证更差。