BiSLS/SPS: 稳定双层优化自动调整步长

May, 2023

BiSLS/SPS: 稳定双层优化自动调整步长

BiSLS/SPS: Auto-tune Step Sizes for Stable Bi-level Optimization

Chen Fan, Gaspard Choné-Ducasse, Mark Schmidt, Christos Thrampoulidis

TL;DR研究了使用自适应步长方法（随机线性搜索和随机Polyak步长）来计算上下级学习率的BO算法，并发现这些方法可以在不需要精细调节的情况下找到较大的学习率，比起需要精细调节的SGD或Adam BO算法快速收敛。

Abstract

The popularity of bi-level optimization (BO) in deep learning has spurred a growing interest in studying gradient-based BO algorithms. However, existing algorithms involve two coupled learning rates that can be affected by approximation errors when computing hypergradients, making care

发现论文，激发创造

无痛随机梯度: 插值，线性搜索和收敛速率

本文提出了一种使用线性搜索技术自动设置步长的随机梯度下降算法，在数据插值设置中，使用 Armijo 线性搜索方法的 SGD 实现凸和强凸函数的确定性收敛率，同时提出了一种 Lipschitz 线性搜索策略的随机额外梯度的算法，该算法在满足嵌入条件的非凸问题和鞍点问题的情况下实现了线性收敛率，并在标准分类任务上表现出了良好的性能。

May, 2019

SGD的随机Polyak步长：快速收敛的自适应学习率

本文介绍了一种新颖的随机Polyak步长方法，称为SPS，它可以有效地用于随机梯度下降，特别是在训练超参数化模型时表现良好，并且在不需要任何与问题相关的常数或额外计算开销的情况下收敛速度快，并且与其他优化方法相比表现出色。

Feb, 2020

基于梯度的双层优化在深度学习中的应用

本篇综述论文研究了基于梯度的双层优化方法在深度学习中的应用和发展，通过探讨单任务和多任务优化问题的双层公式和四种优化器的应用，展示其在优化超参数和提取元知识方面的实用性和高效性，最后指出其广阔的科学问题应用前景。

Jul, 2022

深度学习随机一阶方法的逐层自适应步长

我们提出了一种新的逐层自适应步长过程，用于解决深度学习中用于最小化经验损失函数的随机一阶优化方法中需要调整学习率的问题，并且实验证明这种方法比fine-tuned学习率的方法以及一些常见的一阶或二阶优化方法更有效。

May, 2023

在过度参数化模型中放松随机线搜索

本文提出了一种名为PoNoS的算法，采用非单调线搜索方法和Polyak初始步进大小，可优化SGD/Adam的收敛速度和一般性能，初步运行对比表明此基于线搜索的算法优于传统算法。

Jun, 2023

自适应Polyak步长和线性搜索的SGD算法：稳健收敛和方差降低

该研究提出了两种新的变体的随机Polyak步长和随机线性搜索算法，名为AdaSPS和AdaSLS，它们保证了在非插值设置下的收敛，并在训练超参数化模型时维持凸函数和强凸函数的次线性和线性收敛速度。此外，通过引入方差缩减技术，这些算法能够在次优情况下进行梯度评估，达到O（ε）次优性，从而改进了非插值区域AdaSPS和AdaSLS的较慢O（1/ε^2）收敛速度。实验验证了算法的理论有效性和稳健性。

Aug, 2023

带预处理的Polyak步长的随机梯度下降

扩展了Stochastic Gradient Descent with Polyak Step-size (SPS)方法，使用Hutchinson's方法、Adam和AdaGrad等预处理技术来提高其在糟糕缩放和/或病态数据集上的性能。

Oct, 2023

SANIA：Polyak类型优化框架导致尺度不变的随机算法

SANIA是一个优化框架，通过自适应优化方法和预条件方法，解决了在训练深度神经网络中需要手动微调步长和处理问题缩放或病态的挑战。在分类任务中，包括凸和非凸情境下进行了广泛实证研究。

Dec, 2023

随机Polyak步长和动量：收敛保证和实际性能

在本文中，我们提出了一种基于随机梯度下降算法的新型多步骤选择方法来解决大规模随机优化问题，该方法不需要预先了解问题参数并且具有收敛性保证。

Jun, 2024

学习率自适应的随机梯度下降优化方法：深度学习偏微分方程数值模拟与收敛分析

我们提出并研究了一种基于经验估计目标函数值的学习率自适应方法，用于随机梯度下降优化方法，并在多个神经网络学习问题中实施。我们证明了学习率自适应变体的SGD优化方法对于一类简单的二次最小化问题收敛于最小化器。

Jun, 2024