ICLRMar, 2023

本地 SGD 何时、为何比 SGD 泛化性更好?

TL;DR本文基于随机微分方程(SDE)模型解释了为什么(和何时)局部 SGD 具有更好的泛化性能,并证实具有较小的学习率和足够长的训练时间是取得泛化性能提升的必要条件。