通过在线学习更新理解 Adam 优化器：Adam 即 FTRL 的伪装

MMFeb, 2024

通过在线学习更新理解 Adam 优化器：Adam 即 FTRL 的伪装

Understanding Adam Optimizer via Online Learning of Updates: Adam is FTRL in Disguise

Kwangjun Ahn, Zhiyu Zhang, Yunbum Kook, Yan Dai

TL;DR本研究从在线学习的角度出发，对 Adam 优化器的算法组成进行了研究，通过研究 Adam 与 Follow-the-Regularized-Leader 在线学习框架的对应关系，揭示了其算法组成的益处。

Abstract

Despite the success of the adam optimizer in practice, the theoretical understanding of its algorithmic components still remains limited. In particular, most existing analyses of Adam show the →

adam optimizer convergence rate online learning algorithmic components follow-the-regularized-leader

发现论文，激发创造

广义隐式 Follow-The-Regularized-Leader

该研究提出了一种新的在线学习算法，即广义隐式 FTRL，该算法扩展了 FTRL 框架的范围，可恢复已知算法，设计新的更新规则，直接改善遗憾的最坏情况的上界。

May, 2023

用二阶镜头看 Adam

将基于梯度的一阶方法和基于曲率的二阶方法相结合的 AdamQLR 优化器在回归和分类任务中进行评估，以实现与运行时竞争性的广义性能。

Oct, 2023

AdamL：一种快速自适应梯度方法，融合损失函数

通过考虑损失函数信息以获得更好的泛化结果，我们提出了一种 AdamL 优化算法，该算法是 Adam 优化器的一种新变体。我们提供了足够的条件，以及 Polyak-Lojasiewicz 不等式，确保了 AdamL 的线性收敛性。与此分析的副产品，我们还证明了 EAdam 和 AdaBelief 优化器具有类似的收敛性质。基准函数上的实验结果表明，与 Adam、EAdam 和 AdaBelief 相比，AdamL 通常实现了最快的收敛速度或最低的目标函数值。当考虑到深度学习任务时，如训练卷积神经网络、使用普通卷积神经网络训练生成对抗网络以及长短时记忆网络，这些卓越的性能得到了证实。最后，在普通卷积神经网络的情况下，AdamL 优于其他 Adam 的变体，并且在训练的后期阶段不需要手动调整学习率。

Dec, 2023

学习优化器的一般化方法

从泛化为先的角度设计了一种系统，使用新颖的特征、行动和奖励函数学习更新优化器超参数，从而优化神经网络的泛化性能。该系统在所有神经网络任务上优于 Adam，并在 ImageNet 上实现了 2 倍的加速，在使用比训练任务大 5 个数量级的计算资源的语言模型任务上实现了 2.5 倍的加速。

Jun, 2021

无尺度在线学习

本文设计并分析了一种不需要任何上限或下限的在线线性优化算法，实现了适应损失向量范数的缩放不变性，并且通过 FTRL 和 MD 元算法实现了最优遗憾，并为无界决策集开发了一种非真空遗憾绑定的自适应算法，并对基于 MD 的无标度算法在无界域上的下限进行了研究。

Jan, 2016

Follow-the-Regularized-Leader 竞争比分析及最佳学习率自适应

Follow-The-Regularized-Leader (FTRL) 在在线学习中是一种有效且多功能的方法，调整其学习率的问题被形式化为序贯决策问题，并引入了竞争分析的框架。我们提出的学习率更新规则通过与竞争比率的下限相差一个常数因子来达到上限的目的，对于惩罚项的组成部分进行（近似）单调性的刻画，并针对一些特定环境构建了 BOBW 算法，从而在多臂赌博机、图赌博机、线性赌博机和上下文赌博机等不同设置下取得更紧的后悔界限和更广泛的算法适用性。

Mar, 2024

Adam：一种随机优化方法

Adam 是一种用于基于梯度的随机目标函数优化的算法，它基于低阶矩的自适应估计。该算法易于实现、计算效率高、占用内存少，在对梯度进行对角重缩放时不变，并且非常适合在数据和 / 或参数方面比较大的问题。此外，它也适合于非平稳目标和存在噪声和 / 或稀疏梯度的问题。该算法的超参数具有直观解释，并且通常需要很少的调整。实证结果表明 Adam 在实践中效果良好，并且与其他随机优化方法相比具有优势。此外，还讨论了一种基于无穷范数的 Adam 变体 AdaMax。此外，我们还分析了该算法的理论收敛性质，并提供了一个和在线凸优化框架下已知最好的收敛速率相当的遗憾界。

Dec, 2014

自适应在线非随机控制

我们通过设计新的正则化技术，并将其与未经验证的未来成本预测相结合，实现了自适应于环境的 Non-stochastic Control 算法，这些算法通过考虑系统的内存具有新的数据自适应策略回归界限，并能在准确预测时收缩，即使全部失败时仍保持次线性。

Oct, 2023

自适应（非）凸优化的模块化分析：乐观主义、复合目标和变分界限

本文通过引入新的后悔分解和 Bregman 散度的泛化来对在线学习的两个算法进行分析，得出了较为简洁的结论，提出了对于复合目标的算法，并提供了一种细化的算法族。

Sep, 2017

在线和随机优化中自适应正则化的统一方法

论文描述了一种框架，用于推导和分析在线优化算法，包括数据相关正则化，称为预调节。该框架捕获和统一了许多关于自适应在线方法的现有文献，包括 AdaGrad 和 Online Newton Step 算法及其对角线版本。我们得到了这些算法的新收敛证明，这些证明比以前的分析要简单得多。我们的框架还揭示了常见随机优化方法中不同预调节更新的基本原理。

Jun, 2017