延迟随机梯度下降的普适性理解探究

Aug, 2023

延迟随机梯度下降的普适性理解探究

Towards Understanding the Generalizability of Delayed Stochastic Gradient Descent

Xiaoge Deng, Li Shen, Shengwei Li, Tao Sun, Dongsheng Li...

TL;DR基于生成函数分析工具，我们研究了异步延迟 SGD 的泛化误差上界，结果表明异步延迟减少了延迟 SGD 算法的泛化误差。

Abstract

stochastic gradient descent (SGD) performed in an asynchronous manner plays a crucial role in training large-scale machine learning models. However, the generalization performance of asynchronous delayed sgd, whi

stochastic gradient descent asynchronous delayed sgd generalization error bounds average stability asynchronous delays

发现论文，激发创造

带有延迟更新的随机梯度下降的紧密收敛分析

本文提供基于生成函数的优化算法收敛性分析技巧，研究了梯度下降以及随机梯度下降在二次函数上的有限时间收敛性，证明了在有随机噪声的情况下，延迟对算法的影响可以被忽略，且在分布式优化问题上，加入延迟不会影响性能，且可和同步方法相媲美。

Jun, 2018

非凸学习中无界时延异步随机梯度下降的收敛控制

研究异步随机梯度下降法在无界梯度延迟的非凸优化问题中的收敛性能，证明了 Async-SGD 和其变体 Async-SGDI 的收敛速度，建立了一个异步随机梯度下降法的充分条件，并将两个梯度延迟模型作为其特殊情况包括在内，得出了一个新的未考虑的延迟模型。

May, 2018

慢而稳定的梯度也能取得胜利

本研究分析同步和异步分布式随机梯度下降算法的误差和训练时间之间的权衡，考虑到随机拖延延迟，提出了逐渐变化同步性的方法，并在 CIFAR10 数据集上表现良好。

Mar, 2020

分散式 ASGD 的收敛分析

我们提供了分布式和异步随机梯度下降（DASGD）的收敛速度分析，并证明了它对于一系列条件是有效的。

Sep, 2023

异步随机优化抗任意延迟

论文考虑带有延迟梯度的随机优化问题，在异步分布式优化中证明了一种简单有效的算法，它可以在统计学意义下达到最优结果。

Jun, 2021

具有延迟补偿的异步随机梯度下降

提出了一种新的异步随机梯度下降算法，通过利用梯度函数的泰勒展开和损失函数的快速近似海森矩阵，实现了延迟补偿，从而使 ASGD 的优化行为更接近于顺序 SGD。在 CIFAR-10 和 ImageNet 数据集上进行了评估，实验结果表明，DC-ASGD 优于同步 SGD 和异步 SGD，几乎接近于顺序 SGD 的性能。

Sep, 2016

分布式延迟随机优化

该文主要研究基于梯度的优化算法中的延迟随机梯度信息的收敛性，以及如何应用于分布式优化算法中克服通信瓶颈和同步要求的问题，结果表明在平滑随机问题中，延迟是渐近可以忽略的，且能达到最优收敛效果。

Apr, 2011

分布式深度学习的同步异步随机梯度下降算法

本文提出了一种改进的异步 SGD 算法，通过梯度陈旧程度对学习速率进行调节，以提高其稳定性和收敛速度，在 CIFAR10 和 Imagenet 数据集上进行了实验验证，并证明了该算法的优越性。

Nov, 2015

随机梯度下降的稳定性和泛化的精细分析

本文提供了一种算法 —— 随机梯度下降的稳定性和泛化性的细致分析，通过消除梯度有界性、减轻光滑性和凸性函数的限制，提出了新的稳定性度量，并开发了受 SGD 迭代的风险控制的新型约束，给出了受最佳模型行为影响的泛化范围，从而在低噪声环境下使用稳定性方法得到了第一个快速上界。

Jun, 2020

误差反馈框架：延迟梯度和压缩通信下提高 SGD 速率

本文研究了在平滑拟凸和非凸函数上的随机梯度下降法（SGD）进行延迟更新，并得出了简洁的非渐近收敛速度。我们证明了在所有情况下收敛速度的由两个项组成：（i）一个随机项，不受延迟的影响，和（ii）一个更高阶的确定性项，只是通过延迟线性减缓。因此，在存在噪声的情况下，延迟的影响在几次迭代后变得微不足道，算法以与标准 SGD 相同的最优速度收敛。我们进一步展示了在使用层压梯度（compressed gradients）进行错误补偿时以及在多个节点上做本地 SGD 之后通信的情况下，与现有最佳算法相比，我们得到了更好的结果。这些结果表明 SGD 对于压缩和 / 或延迟的随机梯度更新是具有鲁棒性的。这对于分布式并行实现特别重要，因为异步和通信高效方法是实现多设备优化的线性加速的关键。

Sep, 2019