BiSLS/SPS: 稳定双层优化自动调整步长
本文提出了一种使用线性搜索技术自动设置步长的随机梯度下降算法,在数据插值设置中,使用 Armijo 线性搜索方法的 SGD 实现凸和强凸函数的确定性收敛率,同时提出了一种 Lipschitz 线性搜索策略的随机额外梯度的算法,该算法在满足嵌入条件的非凸问题和鞍点问题的情况下实现了线性收敛率,并在标准分类任务上表现出了良好的性能。
May, 2019
本文介绍了一种新颖的随机Polyak步长方法,称为SPS,它可以有效地用于随机梯度下降,特别是在训练超参数化模型时表现良好,并且在不需要任何与问题相关的常数或额外计算开销的情况下收敛速度快,并且与其他优化方法相比表现出色。
Feb, 2020
本篇综述论文研究了基于梯度的双层优化方法在深度学习中的应用和发展,通过探讨单任务和多任务优化问题的双层公式和四种优化器的应用,展示其在优化超参数和提取元知识方面的实用性和高效性,最后指出其广阔的科学问题应用前景。
Jul, 2022
我们提出了一种新的逐层自适应步长过程,用于解决深度学习中用于最小化经验损失函数的随机一阶优化方法中需要调整学习率的问题,并且实验证明这种方法比fine-tuned学习率的方法以及一些常见的一阶或二阶优化方法更有效。
May, 2023
本文提出了一种名为PoNoS的算法,采用非单调线搜索方法和Polyak初始步进大小,可优化SGD/Adam的收敛速度和一般性能,初步运行对比表明此基于线搜索的算法优于传统算法。
Jun, 2023
该研究提出了两种新的变体的随机Polyak步长和随机线性搜索算法,名为AdaSPS和AdaSLS,它们保证了在非插值设置下的收敛,并在训练超参数化模型时维持凸函数和强凸函数的次线性和线性收敛速度。此外,通过引入方差缩减技术,这些算法能够在次优情况下进行梯度评估,达到O(ε)次优性,从而改进了非插值区域AdaSPS和AdaSLS的较慢O(1/ε^2)收敛速度。实验验证了算法的理论有效性和稳健性。
Aug, 2023
扩展了Stochastic Gradient Descent with Polyak Step-size (SPS)方法,使用Hutchinson's方法、Adam和AdaGrad等预处理技术来提高其在糟糕缩放和/或病态数据集上的性能。
Oct, 2023
SANIA是一个优化框架,通过自适应优化方法和预条件方法,解决了在训练深度神经网络中需要手动微调步长和处理问题缩放或病态的挑战。在分类任务中,包括凸和非凸情境下进行了广泛实证研究。
Dec, 2023
在本文中,我们提出了一种基于随机梯度下降算法的新型多步骤选择方法来解决大规模随机优化问题,该方法不需要预先了解问题参数并且具有收敛性保证。
Jun, 2024
我们提出并研究了一种基于经验估计目标函数值的学习率自适应方法,用于随机梯度下降优化方法,并在多个神经网络学习问题中实施。我们证明了学习率自适应变体的SGD优化方法对于一类简单的二次最小化问题收敛于最小化器。
Jun, 2024