本文提供基于生成函数的优化算法收敛性分析技巧,研究了梯度下降以及随机梯度下降在二次函数上的有限时间收敛性,证明了在有随机噪声的情况下,延迟对算法的影响可以被忽略,且在分布式优化问题上,加入延迟不会影响性能,且可和同步方法相媲美。
Jun, 2018
研究异步随机梯度下降法在无界梯度延迟的非凸优化问题中的收敛性能,证明了 Async-SGD 和其变体 Async-SGDI 的收敛速度,建立了一个异步随机梯度下降法的充分条件,并将两个梯度延迟模型作为其特殊情况包括在内,得出了一个新的未考虑的延迟模型。
May, 2018
本研究分析同步和异步分布式随机梯度下降算法的误差和训练时间之间的权衡,考虑到随机拖延延迟,提出了逐渐变化同步性的方法,并在 CIFAR10 数据集上表现良好。
Mar, 2020
我们提供了分布式和异步随机梯度下降(DASGD)的收敛速度分析,并证明了它对于一系列条件是有效的。
Sep, 2023
论文考虑带有延迟梯度的随机优化问题,在异步分布式优化中证明了一种简单有效的算法,它可以在统计学意义下达到最优结果。
Jun, 2021
提出了一种新的异步随机梯度下降算法,通过利用梯度函数的泰勒展开和损失函数的快速近似海森矩阵,实现了延迟补偿,从而使 ASGD 的优化行为更接近于顺序 SGD。在 CIFAR-10 和 ImageNet 数据集上进行了评估,实验结果表明,DC-ASGD 优于同步 SGD 和异步 SGD,几乎接近于顺序 SGD 的性能。
Sep, 2016
该文主要研究基于梯度的优化算法中的延迟随机梯度信息的收敛性,以及如何应用于分布式优化算法中克服通信瓶颈和同步要求的问题,结果表明在平滑随机问题中,延迟是渐近可以忽略的,且能达到最优收敛效果。
Apr, 2011
本文提出了一种改进的异步 SGD 算法,通过梯度陈旧程度对学习速率进行调节,以提高其稳定性和收敛速度,在 CIFAR10 和 Imagenet 数据集上进行了实验验证,并证明了该算法的优越性。
Nov, 2015
本文提供了一种算法 —— 随机梯度下降的稳定性和泛化性的细致分析,通过消除梯度有界性、减轻光滑性和凸性函数的限制,提出了新的稳定性度量,并开发了受 SGD 迭代的风险控制的新型约束,给出了受最佳模型行为影响的泛化范围,从而在低噪声环境下使用稳定性方法得到了第一个快速上界。
Jun, 2020
本文研究了在平滑拟凸和非凸函数上的随机梯度下降法(SGD)进行延迟更新,并得出了简洁的非渐近收敛速度。我们证明了在所有情况下收敛速度的由两个项组成:(i)一个随机项,不受延迟的影响,和(ii)一个更高阶的确定性项,只是通过延迟线性减缓。因此,在存在噪声的情况下,延迟的影响在几次迭代后变得微不足道,算法以与标准 SGD 相同的最优速度收敛。我们进一步展示了在使用层压梯度(compressed gradients)进行错误补偿时以及在多个节点上做本地 SGD 之后通信的情况下,与现有最佳算法相比,我们得到了更好的结果。这些结果表明 SGD 对于压缩和 / 或延迟的随机梯度更新是具有鲁棒性的。这对于分布式并行实现特别重要,因为异步和通信高效方法是实现多设备优化的线性加速的关键。
Sep, 2019