何时、为何以及何倍？通过优化改进的自适应学习率调度

Oct, 2023

何时、为何以及何倍？通过优化改进的自适应学习率调度

When, Why and How Much? Adaptive Learning Rate Scheduling by Refinement

Aaron Defazio, Ashok Cutkosky, Harsh Mehta, Konstantin Mishchenko

TL;DR学习率调度与优化算法的收敛性分析、学习率预热和调度优化方法的研究。

Abstract

learning rate schedules used in practice bear little resemblance to those recommended by theory. We close much of this theory/practice gap, and as a consequence are able to derive new problem-adaptive learning rate sche

learning rate schedules optimization algorithms convergence analysis learning rate warm-up schedule refinement

发现论文，激发创造

阶梯衰减策略：一种近似最优、几何下降的最小二乘学习速率过程

这项工作研究了随机梯度下降对于流式最小二乘回归问题的最终迭代行为并探讨使用 Step Decay 调度方案实现可接受的改进，同时发现 SGD 的最终迭代行为不如期望，并强调了随机梯度下降固定时间限制下确定最优学习率方案的复杂性。

Apr, 2019

学习自适应学习率调度

本文提出了基于强化学习的框架，通过利用过去训练历史的信息来自动学习自适应学习率调度器，验证实验结果表明，自动学习学习率控制器能够获得更好的测试结果，并且经过训练的控制器网络是可迁移的。

Sep, 2019

动态步长调度的局部最优下降

我们介绍了一种新颖的动态学习率调度方案，旨在简化实践中手动而耗时的调度。我们的方法基于估计局部最优步长，确保在当前步骤的随机梯度方向上实现最大下降。我们首先在平滑的非凸随机优化环境中建立了我们方法的理论收敛边界，与最新的边界相匹配，仅假设对平滑参数具有知识。然后，我们提出了我们算法的实际实现，并在不同数据集和优化算法上进行系统实验，将我们的方案与现有的最新学习率调度器进行比较。我们的发现表明，与现有方法相比，我们的方法需要最少的调整，消除了辅助手动调度和预热阶段的需要，并实现了具有大大减少参数调整的可比性能。

Nov, 2023

分形学习率调度加速

本文研究了迭代优化中的学习率问题，在深度学习中提出了一种新的 Chebyshev 学习率调度方式，此方式与分数阶微积分有关，并且此方式可以在出现不稳定更新时保持局部收敛。

Mar, 2021

学习率自适应的随机梯度下降优化方法：深度学习偏微分方程数值模拟与收敛分析

我们提出并研究了一种基于经验估计目标函数值的学习率自适应方法，用于随机梯度下降优化方法，并在多个神经网络学习问题中实施。我们证明了学习率自适应变体的 SGD 优化方法对于一类简单的二次最小化问题收敛于最小化器。

Jun, 2024

大批量训练自动学习率调度器

本文提出了一种有效的 LR 调试算法，其中包括自适应的预热和预定义的衰减，通过高斯过程平滑的在线检查方法可以有效地训练具有大批次大小的神经网络。

Jul, 2021

优化深度神经网络迭代剪枝学习率调度

本文提出了一种名为 SILO 的改进型学习率优化策略来优化网络剪枝，通过在剪枝理论上给出理论证明，并在各种网络和流行数据集（例如 ImageNet，CIFAR-10 / 100）上进行广泛实验，获得了 2％-4％的性能提升。

Dec, 2022

时间表之外的道路

不依赖于优化停止步骤 T 的现有学习率调度比依赖 T 的学习率调度性能更好。我们提出了一种完全避免使用调度的方法，同时在从凸问题到大规模深度学习问题的广泛问题范围内展示了与调度相比的最先进性能。我们的无调度方法与带有动量的标准优化器没有额外的超参数。我们的方法是我们开发的一种新理论的直接结果，该理论统一了调度和迭代平均化。我们的方法的开源实现可在此 URL 找到。

May, 2024

WNGrad: 梯度下降中的学习率学习

我们提出了一种具有鲁棒性、适用于批量和随机梯度下降的学习率的非线性更新规则，该方法可实现基于梯度观察的学习率逐步降低，最终达到高效收敛。

Mar, 2018

将自适应梯度方法从学习率中解开

本文研究了深度学习优化算法中的多个混淆因素，特别是探索了自适应梯度方法与学习率调度之间的相互作用，提出了一种 “嫁接” 实验，并给出了对自适应梯度方法泛化能力的实证和理论回顾。

Feb, 2020