迈向无参数优化的稳定性

May, 2024

Towards Stability of Parameter-free Optimization

Yijiang Pang, Shuyang Yu, Bao Hoang, Jiayu Zhou

TL;DR提出了一种无需手动调节参数的优化器 AdamG，通过使用 AdaGrad-Norm 算法中的黄金步长派生技术，自动适应不同的优化问题并实现了与手动调节学习率的 Adam 相当的优化性能。

Abstract

hyperparameter tuning, particularly the selection of an appropriate learning rate in adaptive gradient training methods, remains a challenge. To tackle this challenge, in this paper, we propose a novel

hyperparameter tuning learning rate adaptive gradient training methods adamg parameter-free optimizer

发现论文，激发创造

Adam：一种随机优化方法

Adam 是一种用于基于梯度的随机目标函数优化的算法，它基于低阶矩的自适应估计。该算法易于实现、计算效率高、占用内存少，在对梯度进行对角重缩放时不变，并且非常适合在数据和 / 或参数方面比较大的问题。此外，它也适合于非平稳目标和存在噪声和 / 或稀疏梯度的问题。该算法的超参数具有直观解释，并且通常需要很少的调整。实证结果表明 Adam 在实践中效果良好，并且与其他随机优化方法相比具有优势。此外，还讨论了一种基于无穷范数的 Adam 变体 AdaMax。此外，我们还分析了该算法的理论收敛性质，并提供了一个和在线凸优化框架下已知最好的收敛速率相当的遗憾界。

Dec, 2014

指数梯度更新的步长自适应

通过将指定的优化器与自适应调整方法相结合，基于指定的全局步长缩放和每个坐标的增益因子来调整全局步长，进而提高在大规模应用中优化器的性能，并用指数化梯度更新方法来更新步长范围和增益变量，可在训练期间快速适应数据分布差异。

Jan, 2022

D - 适应学习实现无学习率学习

本研究利用单循环方法，不需要关于距离 D 的知识，提出了一种对于复杂的凸 Lipschitz 函数时可以自适应地匹配手动调整的学习率的梯度下降算法，并且在大规模视觉和语言问题等多个领域中取得了优异的实际表现。

Jan, 2023

在轻松平滑条件下的参数无关优化

通过理论和实验证明，Normalized Stochastic Gradient Descent with Momentum 算法在没有先验知识的情况下可以实现（接近）最优复杂度，但复杂度中引入了一个依赖于 (L_1) 的指数项，这是不可避免的。同时，在确定性设置下，可以通过使用 Gradient Descent with a Backtracking Line Search 来抵消指数因子。这是首个在广义平滑条件下提出的无需参数设置的收敛结果。

Nov, 2023

通过参数缩放解释自适应梯度方法对无学习率优化的解读

我们提出解决在训练深度神经网络中用于自适应梯度方法的学习率估计的挑战。我们将自适应梯度方法解释为应用于参数缩放网络的最陡下降方法，并提出了无学习率的自适应梯度方法。实验结果验证了该方法的有效性，并证明在各种情况下，其性能与手动调优的学习率相当。这项工作扩展了无学习率方法的适用性，增强了自适应梯度方法的训练效果。

Jan, 2024

SGD 中的自适应能力：无界梯度和仿射方差下的自调步长

本研究旨在研究基于观察的随机梯度的步长的变化，以最小化非凸光滑目标函数的 AdaGrad-Norm 的收敛速度，并表明 AdaGrad-Norm 在假设与最佳调优的非自适应 SGD 相同的情况下展现出与之相同的收敛速度，同时不需要任何调整参数。

Feb, 2022

学习率自适应的随机梯度下降优化方法：深度学习偏微分方程数值模拟与收敛分析

我们提出并研究了一种基于经验估计目标函数值的学习率自适应方法，用于随机梯度下降优化方法，并在多个神经网络学习问题中实施。我们证明了学习率自适应变体的 SGD 优化方法对于一类简单的二次最小化问题收敛于最小化器。

Jun, 2024

一枚硬币的两面：未调节的 SGD 的局限性和自适应方法的威力

本文探讨了随机梯度下降法与多项式衰减步长之间的关系，并证明无调谐的随机梯度下降法具有渐进最优的收敛速率，但需要面临指数级的平滑度常数；而规范化 SGD、AMSGrad 和 AdaGrad 方法可以在不知道平滑度参数和随机梯度边界条件的情况下消除梯度爆炸问题。

May, 2023

YellowFin 与动量调整艺术

YellowFin 是一种基于 SGD 优化的自动调参方法，通过手动调整学习率和动量，可以达到和 Adam 优化器相当的效果，同时在异步训练环境下，引入负反馈回路可以进一步提高收敛速度。

Jun, 2017

内存高效的自适应优化

本文介绍了一种效率高、灵活性强、内存占用少的自适应优化方法，保留了每个参数的自适应性优势，同时允许使用更大的模型和批量大小，具有很好的收敛性和训练效果。

Jan, 2019