本文提出了一种自适应学习率算法,该算法利用了损失函数的随机曲率信息自动调整学习率,并且提出了一种新的方差缩减技术以加速收敛,在深度神经网络实验中,相比于流行的随机梯度算法获得了更好的性能。
Mar, 2017
通过研究广义AdaGrad步长在凸和非凸设置中,本文证明了这些步长实现梯度渐近收敛于零的充分条件,从而填补了这些方法理论上的空白。此外,本文表明这些步长允许自动适应随机梯度噪声级别在凸和非凸情况下,实现O(1/T)到O(1/根号T)的插值(带有对数项)。
May, 2018
本研究针对带图等情景,探讨Stochastic gradient descent (SGD)中consitent estimator的效用及其相对于unbiased estimator的同等收敛性。实验证明,consistent estimator在strongly convex, convex, and nonconvex目标下均表现良好,这一研究有助于进一步提高SGD的效率并设计大规模图的高效训练算法。
Jul, 2018
本研究探讨了非凸非光滑目标函数中常数步长随机梯度下降算法的渐近正态结果,结果表明只要非凸和非光滑目标函数满足耗散性特性,SGD算法的迭代平均值就会渐近正态分布,该结果可用于构建对于使用SGD算法的非凸问题的置信区间。同时,本文通过对其与马尔可夫链的关系进行了详细地分析,还对目标函数的临界点与其期望值之间的偏差进行了表征。
Jun, 2020
本文对机器学习应用中广泛使用的随机梯度下降及其变种算法在非凸优化问题中的收敛性做了一系列的理论分析,证明了在弱假设条件下,Delayed AdaGrad with momentum算法可高概率收敛于全局最优解。
Jul, 2020
分析了带偏差随机梯度方法的复杂性,特别是在非凸函数上的收敛性及更好的速率,探究了偏差大小对达到的准确性和收敛速率的影响,阐述了偏差梯度在分布式学习和无导数优化中的应用广泛性。
本研究旨在研究基于观察的随机梯度的步长的变化,以最小化非凸光滑目标函数的AdaGrad-Norm的收敛速度,并表明AdaGrad-Norm在假设与最佳调优的非自适应SGD相同的情况下展现出与之相同的收敛速度,同时不需要任何调整参数。
Feb, 2022
本文分析了带偏估计器的随机梯度下降(BiasedSGD)算法在凸和非凸环境下的效果并比较了带偏估计器和无偏估计器的优缺点,同时提出了一组新的比以往任何假设更弱的假设,并通过实验结果验证了理论发现。
May, 2023
分析了AdaGrad在随机非凸优化中收敛速率,证明了存在优于SGD的收敛速度,并给出了收敛速率的上界和下界。
Jun, 2024
本研究解决了AdaGrad在非凸优化中渐近和非渐近收敛率理论分析不足的问题。通过引入来自概率理论的新停时技术,建立了AdaGrad在温和条件下的稳定性,并推导出几乎必然和均方的渐近收敛形式,展示了平均平方梯度的接近最优非渐近收敛率。这为未来其他自适应随机算法的研究提供了潜在的独立技术。
Sep, 2024