不使用大型小批次，使用本地化 SGD

ICLRAug, 2018

不使用大型小批次，使用本地化 SGD

Don't Use Large Mini-Batches, Use Local SGD

Tao Lin, Sebastian U. Stich, Kumar Kshitij Patel, Martin Jaggi

TL;DR本文提出了一种后局部随机梯度下降（SGD）方法，并通过标准基准测试表明，相比大批量训练，该方法显著提高了模型的泛化性能，同时保持相同的效率和可扩展性。此外，本文对一系列局部 SGD 变体的通信效率与性能权衡进行了广泛的研究。

Abstract

mini-batch stochastic gradient methods (SGD) are state of the art for distributed training of deep neural networks. Drastic increases in the mini-batch sizes have lead to key →

mini-batch stochastic gradient methods deep neural networks generalization performance efficiency scalability

发现论文，激发创造

分布式本地梯度方法的通信高效自适应批量大小策略

现代深度神经网络通常需要分布式训练以应对其巨大的规模，但当工作节点数量增加时，通过每次迭代梯度同步的数据并行小批量随机梯度方法中的通信开销成为主要瓶颈。本文引入了适应性批量大小策略，用于局部梯度方法，通过自适应地增加批量大小来减小小批量梯度的方差，提供了在均匀数据条件下的收敛性保证，并通过图像分类实验支持我们的说法，证明了我们的策略在训练和泛化中的有效性。

Jun, 2024

小批次随机梯度下降和局部随机梯度下降的稳定性与泛化能力

通过稳定性和泛化性分析研究了小批量随机梯度下降和本地随机梯度下降的学习能力，从而证明它们可以实现线性加速度以达到最佳风险界限。

Oct, 2023

本地 SGD 收敛快且通信量小

本论文证明了局部随机梯度下降算法在凸问题上能够以与小批量随机梯度下降算法相同的速率收敛，并且与工人数量和小批量大小呈线性加速关系，其中通信轮数可以减少长达 T ^ {1/2} 个因子。

May, 2018

关于深度学习大批量训练的广义缩小和尖峰最小化问题

通过实验证明大批量随机梯度下降法容易陷入训练和测试函数的尖峰最小值，从而导致模型泛化能力下降，而小批量方法表现更好，这可能是由于梯度估计中的固有噪声引起的，可以采用多种策略来帮助大批量方法消除这种泛化差距。

Sep, 2016

基于间歇通信的分布异构学习中局部 SGD 的局限性与潜力

本文利用现有的一阶数据异质性假设，为本地 SGD 提供了新的下界，显示了这些假设不足以证明本地更新步骤的有效性。此外，在相同的假设下，我们证明了加速小批量 SGD 的极小 - 极大优化性质，完全解决了几个问题类的分布式优化。我们的结果强调了需要更好的数据异质性模型，以了解本地 SGD 在实践中的有效性。为此，我们考虑了高阶平滑性和异质性假设，并提供了新的上界，暗示了当数据异质性较低时，本地 SGD 优于小批量 SGD。

May, 2024

异构分布式学习中的小批量对比本地 SGD

本文研究异构分布共享的随机梯度下降优化问题，通过对比 Local SGD 和 Minibatch SGD，得到加速的 Minibatch SGD 是解决高异质性问题的最优方法，并提出了第一个比 Minibatch SGD 更好的 Local SGD 的上界解。

Jun, 2020

随机梯度下降中噪声的泛化益处

研究表明在拥有相同迭代次数的情况下，小或适中大小的 batch 在测试集上比非常大的 batch 具有更好的表现，同时研究如何随着预算增长而改变最佳学习率计划，并提供一个基于随机微分方程的 SGD 动态的理论解释。

Jun, 2020

精确的大型小批量随机梯度下降法：在 1 小时内训练 ImageNet

本文研究了分布式同步随机梯度下降算法在大规模数据训练中的应用，证明了通过采用新的学习率调整规则和温暖启动方法，大批量训练可以克服优化难题，取得和小批量相同的精度，实现了在支持多达 256 个 GPU 的硬件上，在一小时内使用 8,192 个图像的小批量对 ResNet-50 进行有效的训练。

Jun, 2017

局部 SGD 比小批量 SGD 更好吗？

本文研究了局部 SGD（也称为并行 SGD 和联邦平均），一个自然且常用的随机分布式优化方法。在凸设置中，我们证明了局部 SGD 严格优于小批量 SGD，并且加速局部 SGD 在凸二次目标上是最小极值最优的。同时，我们还提供了总体上至少有时优于小批量 SGD 的第一个保证，并展示了局部 SGD 存在一种性能下限，比小批量 SGD 保证更差。

Feb, 2020

本地 SGD 何时、为何比 SGD 泛化性更好？

本文基于随机微分方程（SDE）模型解释了为什么（和何时）局部 SGD 具有更好的泛化性能，并证实具有较小的学习率和足够长的训练时间是取得泛化性能提升的必要条件。

Mar, 2023