ADADELTA: 自适应学习率方法

Dec, 2012

ADADELTA: An Adaptive Learning Rate Method

Matthew D. Zeiler

TL;DR提出了一种名为 ADADELTA 的针对梯度下降的每维学习率的新方法，该方法仅使用一阶信息在时间上动态自适应，除了香草随机梯度下降之外几乎没有计算开销，并且不需要手动调整学习率，且与嘈杂的渐变信息、不同的模型架构选择、各种数据形态和超参数的选择都表现出鲁棒性，在 MNIST 数字分类任务上使用单个机器并在分布式群集环境中使用大规模语音数据集展示出与其他方法相比令人期待的结果。

Abstract

We present a novel per-dimension learning rate method for gradient descent called →

per-dimension learning rate gradient descent adadelta stochastic gradient descent

发现论文，激发创造

使用超梯度下降进行在线学习率调整

本文介绍一种通用的方法来提高基于梯度的优化算法的收敛速度，通过将该方法应用到随机梯度下降、带有 Nesterov 动量的随机梯度下降和 Adam 等常用算法上，我们展示了该方法在一系列优化问题中的有效性，大大减少了对这些算法的初始学习率进行手动调整的需求；我们的方法通过使用与更新规则自身的学习率相关的梯度在优化过程中动态更新学习率，计算这个 “超梯度” 需要很少的额外计算，只需要将原始梯度的一个额外副本存储在内存中，并且只依靠于反向模式自动微分提供的内容。

Mar, 2017

一种用于实现更快收敛和更陡下降的自动学习率调度算法

通过研究我们发现 delta-bar-delta 算法在神经网络优化过程中存在收敛问题，并提出了一种新方法 RDBD（可悔的 delta-bar-delta）来解决这些问题，并验证了其在小批量优化中克服收敛问题并提高优化算法收敛速度的有效性和效率。

Oct, 2023

可微分的自适应学习率

本研究提出一种新的学习率自适应算法来解决 Hypergradient 优化算法在处理大规模数据集和验证集上的表现问题，实验证明该算法在速度和精度上都能超越现有的优化算法。

Oct, 2022

深度学习的鲁棒自适应随机梯度方法

本文提出了一种自适应学习率算法，该算法利用了损失函数的随机曲率信息自动调整学习率，并且提出了一种新的方差缩减技术以加速收敛，在深度神经网络实验中，相比于流行的随机梯度算法获得了更好的性能。

Mar, 2017

一种自适应瞬时边界方法用于随机学习

本文提出了 AdaMod 方法来限制 Adam 方法中出现的极端学习率问题，实现深度神经网络的稳定而高效训练，对于复杂网络，如 DenseNet 和 Transformer，与 Adam 方法相比，AdaMod 方法带来了显著的改进。

Oct, 2019

AdaScale SGD：分布式训练的用户友好型算法

AdaScale SGD 是一种可靠地适应大批量训练学习率的算法，通过不断调整梯度方差，可以实现在宽范围的批量大小下加速训练。在机器翻译，图像分类，目标检测和语音识别任务中，它可以处理大批量训练，而不会降低模型质量，因为 AdaScale 的收敛性边界可以保持最终目标值，即使批量大小增加，迭代次数减少。这个算法引入了可忽略的计算开销和没有新的超参数，因此是实现大规模训练的有吸引力的选择。

Jul, 2020

DeltaGrad：机器学习模型快速微调

提出了 DeltaGrad 算法，用于快速重新训练基于训练阶段缓存信息的机器学习模型，以解决由于稍微更改数据集引起的代价昂贵的重新训练问题，以实现隐私性、稳健性、偏见减少和不确定性量化等多种应用，并得到了理论和实证支持，与现有技术相比效果优越。

Jun, 2020

Local AdaAlter: 基于自适应学习率的通信高效性随机梯度下降

本篇论文提出了一种新的 SGD 变体算法，降低了通信开销及提高自适应学习率，经实验证明，该算法显著降低了通信开销，进而缩短了 1B 字数据集的训练时间 30%。

Nov, 2019

学习率自适应的随机梯度下降优化方法：深度学习偏微分方程数值模拟与收敛分析

我们提出并研究了一种基于经验估计目标函数值的学习率自适应方法，用于随机梯度下降优化方法，并在多个神经网络学习问题中实施。我们证明了学习率自适应变体的 SGD 优化方法对于一类简单的二次最小化问题收敛于最小化器。

Jun, 2024

训练深度神经网络的自适应学习率优化算法的适当学习率

本文针对深度学习中的非凸随机优化问题，提出了适当的学习率，并使用自适应学习率优化算法（如 Adam 和 AMSGrad），可以近似问题的固定点，同时保证这些算法可以近似凸随机优化问题的全局最小值，在文本和图像分类的实验中，采用不同的学习率优化算法，结果表明使用恒定学习率性能比衰减学习率的性能更佳。

Feb, 2020