等向随机优化器

Jul, 2023

An Isometric Stochastic Optimizer

Jacob Jackson

TL;DR提出一种新的优化器 IsoAdam，通过使参数更新的范数对输入和输出的线性变换具有不变性来提高训练速度。

Abstract

The adam optimizer is the standard choice in deep learning applications. I propose a simple explanation of Adam's success: it makes each parameter's step size independent of the norms of the other parameters. Bas

adam optimizer deep learning isoadam parameter update linear transformation

发现论文，激发创造

Adam：一种随机优化方法

Adam 是一种用于基于梯度的随机目标函数优化的算法，它基于低阶矩的自适应估计。该算法易于实现、计算效率高、占用内存少，在对梯度进行对角重缩放时不变，并且非常适合在数据和 / 或参数方面比较大的问题。此外，它也适合于非平稳目标和存在噪声和 / 或稀疏梯度的问题。该算法的超参数具有直观解释，并且通常需要很少的调整。实证结果表明 Adam 在实践中效果良好，并且与其他随机优化方法相比具有优势。此外，还讨论了一种基于无穷范数的 Adam 变体 AdaMax。此外，我们还分析了该算法的理论收敛性质，并提供了一个和在线凸优化框架下已知最好的收敛速率相当的遗憾界。

Dec, 2014

基于共轭梯度的 Adam 算法用于随机优化及其在深度学习中的应用

本文提出了一个混合 Adam 和非线性共轭梯度方法的共轭梯度 Adam 算法，并展示其收敛分析。在文本分类和图像分类上的数值实验表明，该算法可以在比现有的自适应随机优化算法更少的时代数内训练深度神经网络模型。

Feb, 2020

探寻变形金刚为何 Adam 比 SGD 更快收敛

这篇论文提出了一种新的方向锐度概念，阐述了优化算法与更新步长的方向锐度的关系，发现随机梯度下降在这方面表现远差于自适应算法，因此建议使用坐标剪裁该问题，并证明了该技术可用于提高深度学习优化的收敛速度。

May, 2023

Adam 在放宽假设下的随机优化收敛性

在具有潜在无界梯度和仿射方差噪声的非凸光滑场景下，研究了 Adam 算法的理论性质，证明了它能够以高概率在多项式时间复杂度内找到一个稳定点，同时具有较好的自适应性能。

Feb, 2024

标准化方向保留 Adam

本文提出了一种变种 Adam 算法 - 基于方向保持且具有归一化的 Adam 算法 (ND-Adam)，通过更精确的权重向量更新来消除 Adam 和 SGD 之间的推广差距，并进一步改善了分类任务中的推广性能。

Sep, 2017

剖析 Adam：随机梯度的符号、大小和方差

研究表明，ADAM 优化器在深度学习中非常流行，但是对于泛化效果差的问题，将方差适应应用到 SGD 中会出现一种新的方法。

May, 2017

将 Adam 推广到流形上以高效训练 Transformers

通过利用特殊结构（如 Stiefel 流形、simplectic Stiefel 流形、Grassmann 流形和 simplectic Grassmann 流形）对神经网络优化进行降维处理，成功地将 Adam 算法推广到了流形层面上，并将其用于训练转换器，可以有效地加速训练过程。

May, 2023

使用尺度不变架构强化神经网络训练

本文提出了通过修改网络结构，使其缩放不变，并使用 SGD 和权重衰减进行训练的通用方法，并证明了此方法不仅可以实现稳健的训练，还可以节省内存。作者还设计了一种名为 SIBERT 的缩放不变的 BERT 版本，其性能可与使用 Adam 等自适应方法训练的 BERT 相媲美。

Feb, 2022

迈向无参数优化的稳定性

提出了一种无需手动调节参数的优化器 AdamG，通过使用 AdaGrad-Norm 算法中的黄金步长派生技术，自动适应不同的优化问题并实现了与手动调节学习率的 Adam 相当的优化性能。

May, 2024

自适应惯性：解离自适应学习率和动量的影响

通过研究神经网络中的优化算法，提出了一个名为 “自适应惯性” 的新方法，能够更好地训练神经网络并提高泛化性能。

Jun, 2020