本地 SGD 何时、为何比 SGD 泛化性更好?
本论文证明了局部随机梯度下降算法在凸问题上能够以与小批量随机梯度下降算法相同的速率收敛,并且与工人数量和小批量大小呈线性加速关系,其中通信轮数可以减少长达 T ^ {1/2} 个因子。
May, 2018
通过实验和理论分析,本文揭示了有限 LR 的 SGD(随机梯度下降)可以用 Ito 随机微分方程近似,且该近似可以捕捉常见深度神经网络的训练和泛化特性,提出了线性缩放规则的必要条件。
Feb, 2021
本文提出了一种后局部随机梯度下降(SGD)方法,并通过标准基准测试表明,相比大批量训练,该方法显著提高了模型的泛化性能,同时保持相同的效率和可扩展性。此外,本文对一系列局部 SGD 变体的通信效率与性能权衡进行了广泛的研究。
Aug, 2018
本文利用现有的一阶数据异质性假设,为本地 SGD 提供了新的下界,显示了这些假设不足以证明本地更新步骤的有效性。此外,在相同的假设下,我们证明了加速小批量 SGD 的极小 - 极大优化性质,完全解决了几个问题类的分布式优化。我们的结果强调了需要更好的数据异质性模型,以了解本地 SGD 在实践中的有效性。为此,我们考虑了高阶平滑性和异质性假设,并提供了新的上界,暗示了当数据异质性较低时,本地 SGD 优于小批量 SGD。
May, 2024
本文提出了一种名为 local SGDA 的算法来缓解分布式学习中的通信开销,可在广泛的分布式 minmax 优化问题下实现可证明的收敛性和更少的通信次数。
Feb, 2021
本研究提出了一种名为 LD-SGD 的算法,该算法结合了本地更新和分散式通信,提供了分析框架,并给出了收敛的充分条件。该框架为分散式优化设计了更新方案,并具有理论和实际的通信优化效果,从而在分散式设置中提高了通信效率。
Oct, 2019
该论文通过理论分析和实验证明,本地统计梯度下降(L-SGD)可以更有效地探索损失函数的二阶信息,从而比随机梯度下降(SGD)更快地收敛。
May, 2023
本文提出 Decentralized Stochastic Gradient Descent 算法的泛化误差分析,并据此证明在凸设置下,不论选择哪种通信图,D-SGD 算法的泛化界限与经典 SGD 算法相同,即前人论述的通信图对泛化的不利影响并不成立。
Jun, 2023
本文研究了局部 SGD(也称为并行 SGD 和联邦平均),一个自然且常用的随机分布式优化方法。在凸设置中,我们证明了局部 SGD 严格优于小批量 SGD,并且加速局部 SGD 在凸二次目标上是最小极值最优的。同时,我们还提供了总体上至少有时优于小批量 SGD 的第一个保证,并展示了局部 SGD 存在一种性能下限,比小批量 SGD 保证更差。
Feb, 2020