L4：深度学习实用的基于损失的步长自适应算法

Feb, 2018

L4：深度学习实用的基于损失的步长自适应算法

L4: Practical loss-based stepsize adaptation for deep learning

Michal Rolinek, Georg Martius

TL;DR本文提出了一种基于损失函数进行梯度重新标度的步长自适应方案（Stepsize Adaptation Scheme），以达到对损失的预测进度的固定要求。作者用 Adam 和 Momentum 优化器进行了实验，通过该方案改进了它们的性能，在多种网络结构和数据集上进行了验证。与定常步长相比，增强优化器在不增加计算量的情况下，表现稳定优于定常步长优化器，甚至是最佳的优化器。

Abstract

We propose a stepsize adaptation scheme for stochastic gradient descent. It operates directly with the loss function and rescales the grad

stochastic gradient descent stepsize adaptation scheme loss function adam momentum

发现论文，激发创造

深度学习随机一阶方法的逐层自适应步长

我们提出了一种新的逐层自适应步长过程，用于解决深度学习中用于最小化经验损失函数的随机一阶优化方法中需要调整学习率的问题，并且实验证明这种方法比 fine-tuned 学习率的方法以及一些常见的一阶或二阶优化方法更有效。

May, 2023

指数梯度更新的步长自适应

通过将指定的优化器与自适应调整方法相结合，基于指定的全局步长缩放和每个坐标的增益因子来调整全局步长，进而提高在大规模应用中优化器的性能，并用指数化梯度更新方法来更新步长范围和增益变量，可在训练期间快速适应数据分布差异。

Jan, 2022

大规模机器学习问题的随机比率跟踪算法

本文提出了一种适应性步长选择的算法，基于传统的非线性优化技术，通过分析结果表明，该算法可生成与手动调节最佳步长相当的步长，并产生期望收敛于解的固定邻域的迭代。

May, 2023

自适应预条件化随机梯度下降的步长

该研究提出了一种新颖的自适应步长方法来解决随机梯度下降（SGD）中的问题，通过利用我们识别出的可追踪的量（梯度的 Lipschitz 常数和搜索方向的局部方差的概念），我们的发现为随机优化提供了几乎无需调参的算法，该算法在应用于二次问题时具有可证明的收敛性质，并在经典图像分类任务中展现出真正的问题自适应行为。我们的框架还可以包含预处理器，从而实现对随机二阶优化方法的自适应步长的实现。

Nov, 2023

连续学习的步长优化

在这篇论文中，我们展示了常用的算法（如 RMSProp 和 Adam）在调整步长向量时忽略了其适应过程对整体目标函数的影响，并通过简单问题的实验显示，与 RMSProp 和 Adam 相比，IDBD 算法可以持续改进步长向量。我们讨论了两种方法的差异和各自的限制，并建议将两种方法结合起来以提高神经网络在持续学习中的性能。

Jan, 2024

随机梯度下降算法自适应步长的局部二次收敛

研究了一种在求解矩阵求逆等问题中具有局部二次收敛性的随机梯度下降优化方法，该方法采用自适应步长和一阶优化方法，为优化方法在深度学习中的应用提供了一条快速收敛的途径。

Dec, 2021

新的随机梯度下降的对数步长

本文提出了一种利用新的对数步长的随机梯度下降（SGD）方法的新型热重启技术，对于平滑和非凸函数，我们建立了 SGD 的 O（1/√T）收敛速度。我们对 FashionMinst，CIFAR10 和 CIFAR100 数据集进行了全面的实现，证明了新提出的步长的高效性。此外，我们将结果与其他九种现有方法进行了比较，并证明在使用卷积神经网络（CNN）模型时，新的对数步长将 CIFAR100 数据集的测试准确性提高了 0.9％。

Apr, 2024

通过步长规划方法学习加速

本文介绍了一种名为 Csawg 的新方法，它使用更新经验来学习改进的参数更新方式，并且使用步长规划的方式加速 Gradient Descent 在 ill-conditioned 和 non-convex 问题中的收敛速度。在经过实验验证后，我们的方法获得了比 Nesterov 加速 Gradient 更快的收敛速度，并且在 Rosenbrock 函数的测试中取得了比 Gradient Descent 更快和更准确的收敛效果。

Apr, 2022

使用超梯度下降进行在线学习率调整

本文介绍一种通用的方法来提高基于梯度的优化算法的收敛速度，通过将该方法应用到随机梯度下降、带有 Nesterov 动量的随机梯度下降和 Adam 等常用算法上，我们展示了该方法在一系列优化问题中的有效性，大大减少了对这些算法的初始学习率进行手动调整的需求；我们的方法通过使用与更新规则自身的学习率相关的梯度在优化过程中动态更新学习率，计算这个 “超梯度” 需要很少的额外计算，只需要将原始梯度的一个额外副本存储在内存中，并且只依靠于反向模式自动微分提供的内容。

Mar, 2017

在线、持续预测的元下降法

本文研究了不同的向量步长自适应方法，旨在解决在线、连续预测问题中的非平稳性，提出了一种适用于更广泛算法的基于元梯度下降的增量式自适应步长算法 AdaGain，并通过对比发现这种元梯度下降方法在非平稳预测问题中具有优势。

Jul, 2019