SGD的随机Polyak步长:快速收敛的自适应学习率
通过研究表明,在现代机器学习中,采用具有极高表现力的模型进行训练,可以实现完全拟合或内插数据,从而得到零训练损失。我们证明,采用恒定步长随机梯度下降法(SGD)与Nesterov加速法具有相同的收敛速度,适用于凸和强凸函数。同时,我们发现,SGD可以在非凸情况下像全梯度下降法一样高效地找到一阶稳定点。最后,我们通过对合成和真实数据集的实验验证了我们的理论发现。
Oct, 2018
本文提出了一种使用线性搜索技术自动设置步长的随机梯度下降算法,在数据插值设置中,使用 Armijo 线性搜索方法的 SGD 实现凸和强凸函数的确定性收敛率,同时提出了一种 Lipschitz 线性搜索策略的随机额外梯度的算法,该算法在满足嵌入条件的非凸问题和鞍点问题的情况下实现了线性收敛率,并在标准分类任务上表现出了良好的性能。
May, 2019
研究指出指数步长和余弦步长是自适应噪声水平的,不需要知道噪声水平和调整超参数就可以达到几乎最佳性能。探讨了这两种优化策略的收敛速度和表现,实验证明它们最多只需要调整两个超参数就可达到优秀的表现。
Feb, 2020
我们开发了SGD的变体与自适应步长,利用抽样的损失值,重点解决有限项求和问题,也称为经验风险最小化。我们详细介绍了一种理想的自适应方法$ exttt{SPS}_+$,它利用了抽样的损失值并假设知道最优情况下的抽样损失。我们展示了$ exttt{SPS}_+$在Lipschitz非平滑中实现了已知的最优收敛速率。然后,我们开发了$ exttt{FUVAL}$的变体,它逐渐学习最优情况下的损失值。我们以三个视角介绍了$ exttt{FUVAL}$,作为一种基于投影的方法,作为一种近似线性方法的变体,以及作为一种特定的在线SGD方法。然后,我们提出了$ exttt{FUVAL}$的收敛性分析和实验结果。我们的工作的缺点是,$ exttt{FUVAL}$的收敛性分析没有比SGD更具优势;另一个缺点是,目前只有$ exttt{FUVAL}$的全批次版本在步长敏感性方面相对于GD有轻微优势,随机版本相对于SGD没有明显优势。我们猜测需要较大的小批量数据才能使$ exttt{FUVAL}$具有竞争力。目前,本文研究的新$ exttt{FUVAL}$方法没有提供清晰的理论或实践优势,然而,我们选择将这个草稿在线上提供,因为其中使用了一些分析技巧,如$ exttt{SPS}_+$的非平滑分析,同时也展示了一种目前看似有趣但不能工作的方法。
Jul, 2023
该研究提出了两种新的变体的随机Polyak步长和随机线性搜索算法,名为AdaSPS和AdaSLS,它们保证了在非插值设置下的收敛,并在训练超参数化模型时维持凸函数和强凸函数的次线性和线性收敛速度。此外,通过引入方差缩减技术,这些算法能够在次优情况下进行梯度评估,达到O(ε)次优性,从而改进了非插值区域AdaSPS和AdaSLS的较慢O(1/ε^2)收敛速度。实验验证了算法的理论有效性和稳健性。
Aug, 2023
该论文提出了一种新颖的方法,通过引入基于1/√t的修改衰减步长来提高随机梯度下降(SGD)算法的性能。所提出的步长整合了对数项,在最后的迭代中选择较小的值。通过分析,我们在非凸光滑函数无Polyak-Lojasiewicz条件的情况下,建立了收敛速度为O(ln T/√T)。为了评估我们的方法的有效性,我们在FashionMNIST和CIFAR10数据集上进行了图像分类任务的数值实验,结果显示与传统的1/√t步长相比,准确率明显提高,分别观察到0.5%和1.4%的增益。源代码可以在https://github.com/Shamaeem/LNSQRTStepSize找到。
Sep, 2023
扩展了Stochastic Gradient Descent with Polyak Step-size (SPS)方法,使用Hutchinson's方法、Adam和AdaGrad等预处理技术来提高其在糟糕缩放和/或病态数据集上的性能。
Oct, 2023
该研究提出了一种新颖的自适应步长方法来解决随机梯度下降(SGD)中的问题,通过利用我们识别出的可追踪的量(梯度的 Lipschitz 常数和搜索方向的局部方差的概念),我们的发现为随机优化提供了几乎无需调参的算法,该算法在应用于二次问题时具有可证明的收敛性质,并在经典图像分类任务中展现出真正的问题自适应行为。我们的框架还可以包含预处理器,从而实现对随机二阶优化方法的自适应步长的实现。
Nov, 2023
本文提出了一种利用新的对数步长的随机梯度下降(SGD)方法的新型热重启技术,对于平滑和非凸函数,我们建立了SGD的O(1/√T)收敛速度。我们对FashionMinst,CIFAR10和CIFAR100数据集进行了全面的实现,证明了新提出的步长的高效性。此外,我们将结果与其他九种现有方法进行了比较,并证明在使用卷积神经网络(CNN)模型时,新的对数步长将CIFAR100数据集的测试准确性提高了0.9%。
Apr, 2024
在本文中,我们提出了一种基于随机梯度下降算法的新型多步骤选择方法来解决大规模随机优化问题,该方法不需要预先了解问题参数并且具有收敛性保证。
Jun, 2024