BriefGPT.xyz
Feb, 2020
局部 SGD 比小批量 SGD 更好吗?
Is Local SGD Better than Minibatch SGD?
HTML
PDF
Blake Woodworth, Kumar Kshitij Patel, Sebastian U. Stich, Zhen Dai, Brian Bullins...
TL;DR
本文研究了局部 SGD(也称为并行 SGD 和联邦平均),一个自然且常用的随机分布式优化方法。在凸设置中,我们证明了局部 SGD 严格优于小批量 SGD,并且加速局部 SGD 在凸二次目标上是最小极值最优的。同时,我们还提供了总体上至少有时优于小批量 SGD 的第一个保证,并展示了局部 SGD 存在一种性能下限,比小批量 SGD 保证更差。
Abstract
We study
local sgd
(also known as parallel SGD and
federated averaging
), a natural and frequently used stochastic distributed
optimization
→