随机梯度下降法与有偏梯度的收敛性
本研究针对带图等情景,探讨Stochastic gradient descent (SGD)中consitent estimator的效用及其相对于unbiased estimator的同等收敛性。实验证明,consistent estimator在strongly convex, convex, and nonconvex目标下均表现良好,这一研究有助于进一步提高SGD的效率并设计大规模图的高效训练算法。
Jul, 2018
本文研究了在平滑拟凸和非凸函数上的随机梯度下降法(SGD)进行延迟更新,并得出了简洁的非渐近收敛速度。我们证明了在所有情况下收敛速度的由两个项组成:(i)一个随机项,不受延迟的影响,和(ii)一个更高阶的确定性项,只是通过延迟线性减缓。因此,在存在噪声的情况下,延迟的影响在几次迭代后变得微不足道,算法以与标准 SGD 相同的最优速度收敛。我们进一步展示了在使用层压梯度(compressed gradients)进行错误补偿时以及在多个节点上做本地 SGD 之后通信的情况下,与现有最佳算法相比,我们得到了更好的结果。这些结果表明 SGD 对于压缩和/或延迟的随机梯度更新是具有鲁棒性的。这对于分布式并行实现特别重要,因为异步和通信高效方法是实现多设备优化的线性加速的关键。
Sep, 2019
研究表明,用于分布式学习的偏置压缩算子可以显著提高通信效率并达到线性收敛率,其性能优于其无偏压缩器。它们可用于随机梯度下降和分布式随机梯度下降,并且存在许多具有良好理论保证和实际性能的新偏置压缩器可供选择。
Feb, 2020
本文提出了一种统一的分析分布式SGD各种变体的方法,涵盖了不同的量化SGD、误差补偿SGD和延迟更新SGD变体,并通过一个定理推导了其所有方法的复杂度结果。在此基础上,我们开发了16种新的方法,其中包括第一种基于误差反馈和梯度差分量化的EC-SGD-DIANA方法和第一种具有误差反馈和方差缩减的分布式随机方法EC-LSVRG-DIANA。
Oct, 2020
本文研究了随机梯度下降在对角线线性网络上的动态规律,证明了它比梯度下降的解具有更好的泛化性能,并发现收敛速度控制偏见效应的大小,结果支持了结构化噪声可以引起更好泛化性能的理论结论。
Jun, 2021
本文提出一种新的随机优化原理,即使用 Blanchet 和 Glynn 的多级 Monte-Carlo 方法将任何最优随机梯度方法转换为 $x_*$ 的估计量,以此为基础获得了一种廉价且几乎无偏差的梯度估计器,可以应用于随机优化的多个领域,如随机优化,概率图形模型推理以及优化的机器学习等。
Jun, 2021
本文分析了带偏估计器的随机梯度下降(BiasedSGD)算法在凸和非凸环境下的效果并比较了带偏估计器和无偏估计器的优缺点,同时提出了一组新的比以往任何假设更弱的假设,并通过实验结果验证了理论发现。
May, 2023
本研究通过非渐进性分析,探讨具有偏倚梯度和自适应步长的随机梯度下降算法,包括时间依赖的偏倚和梯度估计器的均方误差控制,结果表明带偏倚梯度的Adagrad和RMSProp算法收敛速率与无偏情况下的结果相似,实验结果进一步验证了收敛性,并展示了通过适当的超参数调整可以减少偏倚影响的能力。
Feb, 2024
基于中位数估计的坚实梯度方法在随机梯度下降算法中能够应对重尾、状态相关性噪声,在分布式学习、隐私约束等领域有广泛应用。本研究在采样、几何中位数计算及迭代中都提出了基于中位数梯度估计的方法,并发现多种已知算法可看作此方法的特例。
Feb, 2024
通过对分布式动量法中的有偏梯度估计建立非渐近收敛界限,并且在元学习和压缩梯度等特殊情况下证明动量法在训练深度神经网络中比传统有偏梯度下降方法有更快的收敛性能。
Feb, 2024