本地 SGD 何时、为何比 SGD 泛化性更好？

ICLRMar, 2023

本地 SGD 何时、为何比 SGD 泛化性更好？

Why (and When) does Local SGD Generalize Better than SGD?

Xinran Gu, Kaifeng Lyu, Longbo Huang, Sanjeev Arora

TL;DR本文基于随机微分方程（SDE）模型解释了为什么（和何时）局部 SGD 具有更好的泛化性能，并证实具有较小的学习率和足够长的训练时间是取得泛化性能提升的必要条件。

Abstract

local sgd is a communication-efficient variant of SGD for large-scale training, where multiple GPUs perform SGD independently and average the model parameters periodically. It has been recently observed that

local sgd communication-efficient stochastic differential equation generalization improvement training time

发现论文，激发创造

本地 SGD 收敛快且通信量小

本论文证明了局部随机梯度下降算法在凸问题上能够以与小批量随机梯度下降算法相同的速率收敛，并且与工人数量和小批量大小呈线性加速关系，其中通信轮数可以减少长达 T ^ {1/2} 个因子。

May, 2018

随机微分方程模型化 SGD 的有效性

通过实验和理论分析，本文揭示了有限 LR 的 SGD（随机梯度下降）可以用 Ito 随机微分方程近似，且该近似可以捕捉常见深度神经网络的训练和泛化特性，提出了线性缩放规则的必要条件。

Feb, 2021

不使用大型小批次，使用本地化 SGD

本文提出了一种后局部随机梯度下降（SGD）方法，并通过标准基准测试表明，相比大批量训练，该方法显著提高了模型的泛化性能，同时保持相同的效率和可扩展性。此外，本文对一系列局部 SGD 变体的通信效率与性能权衡进行了广泛的研究。

Aug, 2018

小批次随机梯度下降和局部随机梯度下降的稳定性与泛化能力

通过稳定性和泛化性分析研究了小批量随机梯度下降和本地随机梯度下降的学习能力，从而证明它们可以实现线性加速度以达到最佳风险界限。

Oct, 2023

基于间歇通信的分布异构学习中局部 SGD 的局限性与潜力

本文利用现有的一阶数据异质性假设，为本地 SGD 提供了新的下界，显示了这些假设不足以证明本地更新步骤的有效性。此外，在相同的假设下，我们证明了加速小批量 SGD 的极小 - 极大优化性质，完全解决了几个问题类的分布式优化。我们的结果强调了需要更好的数据异质性模型，以了解本地 SGD 在实践中的有效性。为此，我们考虑了高阶平滑性和异质性假设，并提供了新的上界，暗示了当数据异质性较低时，本地 SGD 优于小批量 SGD。

May, 2024

局部随机梯度下降上升：收敛分析与通信效率

本文提出了一种名为 local SGDA 的算法来缓解分布式学习中的通信开销，可在广泛的分布式 minmax 优化问题下实现可证明的收敛性和更少的通信次数。

Feb, 2021

通信高效的本地分散式 SGD 方法

本研究提出了一种名为 LD-SGD 的算法，该算法结合了本地更新和分散式通信，提供了分析框架，并给出了收敛的充分条件。该框架为分散式优化设计了更新方案，并具有理论和实际的通信优化效果，从而在分散式设置中提高了通信效率。

Oct, 2019

利用损失函数的二阶信息加速收敛的本地随机梯度下降

该论文通过理论分析和实验证明，本地统计梯度下降（L-SGD）可以更有效地探索损失函数的二阶信息，从而比随机梯度下降（SGD）更快地收敛。

May, 2023

分散式 SGD 算法的稳定性和泛化分析改进

本文提出 Decentralized Stochastic Gradient Descent 算法的泛化误差分析，并据此证明在凸设置下，不论选择哪种通信图，D-SGD 算法的泛化界限与经典 SGD 算法相同，即前人论述的通信图对泛化的不利影响并不成立。

Jun, 2023

局部 SGD 比小批量 SGD 更好吗？

本文研究了局部 SGD（也称为并行 SGD 和联邦平均），一个自然且常用的随机分布式优化方法。在凸设置中，我们证明了局部 SGD 严格优于小批量 SGD，并且加速局部 SGD 在凸二次目标上是最小极值最优的。同时，我们还提供了总体上至少有时优于小批量 SGD 的第一个保证，并展示了局部 SGD 存在一种性能下限，比小批量 SGD 保证更差。

Feb, 2020