深度学习随机一阶方法的逐层自适应步长
本文提出了一种自适应学习率算法,该算法利用了损失函数的随机曲率信息自动调整学习率,并且提出了一种新的方差缩减技术以加速收敛,在深度神经网络实验中,相比于流行的随机梯度算法获得了更好的性能。
Mar, 2017
本文提出了一种使用线性搜索技术自动设置步长的随机梯度下降算法,在数据插值设置中,使用 Armijo 线性搜索方法的 SGD 实现凸和强凸函数的确定性收敛率,同时提出了一种 Lipschitz 线性搜索策略的随机额外梯度的算法,该算法在满足嵌入条件的非凸问题和鞍点问题的情况下实现了线性收敛率,并在标准分类任务上表现出了良好的性能。
May, 2019
本文通过对训练损失函数的海森矩阵及其相关量的分析,探讨了随机梯度下降(SGD)的优化动态和泛化行为等三个问题,并在合成数据、MNIST 和 CIFAR-10 数据集上进行了大量实验支持其理论结果。
Jul, 2019
本文介绍了一种新颖的随机Polyak步长方法,称为SPS,它可以有效地用于随机梯度下降,特别是在训练超参数化模型时表现良好,并且在不需要任何与问题相关的常数或额外计算开销的情况下收敛速度快,并且与其他优化方法相比表现出色。
Feb, 2020
研究了一种在求解矩阵求逆等问题中具有局部二次收敛性的随机梯度下降优化方法,该方法采用自适应步长和一阶优化方法,为优化方法在深度学习中的应用提供了一条快速收敛的途径。
Dec, 2021
本研究基于深度模型,提供了一种基于局部二次逼近的自适应SGD学习率策略,并将其与格点搜索SDG学习率及Gauss-Newton近似法进行比较。该策略的Hessian矩阵的正半定估计精确度较高,可以在分类任务中对不同结构(有或无残差连接)的卷积神经网络上进行性能评估。
May, 2023
研究了使用自适应步长方法(随机线性搜索和随机Polyak步长)来计算上下级学习率的BO算法,并发现这些方法可以在不需要精细调节的情况下找到较大的学习率,比起需要精细调节的SGD或Adam BO算法快速收敛。
May, 2023
该研究提出了一种新颖的自适应步长方法来解决随机梯度下降(SGD)中的问题,通过利用我们识别出的可追踪的量(梯度的 Lipschitz 常数和搜索方向的局部方差的概念),我们的发现为随机优化提供了几乎无需调参的算法,该算法在应用于二次问题时具有可证明的收敛性质,并在经典图像分类任务中展现出真正的问题自适应行为。我们的框架还可以包含预处理器,从而实现对随机二阶优化方法的自适应步长的实现。
Nov, 2023
本文提出了一种利用新的对数步长的随机梯度下降(SGD)方法的新型热重启技术,对于平滑和非凸函数,我们建立了SGD的O(1/√T)收敛速度。我们对FashionMinst,CIFAR10和CIFAR100数据集进行了全面的实现,证明了新提出的步长的高效性。此外,我们将结果与其他九种现有方法进行了比较,并证明在使用卷积神经网络(CNN)模型时,新的对数步长将CIFAR100数据集的测试准确性提高了0.9%。
Apr, 2024
我们提出并研究了一种基于经验估计目标函数值的学习率自适应方法,用于随机梯度下降优化方法,并在多个神经网络学习问题中实施。我们证明了学习率自适应变体的SGD优化方法对于一类简单的二次最小化问题收敛于最小化器。
Jun, 2024