等向随机优化器
Adam 是一种用于基于梯度的随机目标函数优化的算法,它基于低阶矩的自适应估计。该算法易于实现、计算效率高、占用内存少,在对梯度进行对角重缩放时不变,并且非常适合在数据和 / 或参数方面比较大的问题。此外,它也适合于非平稳目标和存在噪声和 / 或稀疏梯度的问题。该算法的超参数具有直观解释,并且通常需要很少的调整。实证结果表明 Adam 在实践中效果良好,并且与其他随机优化方法相比具有优势。此外,还讨论了一种基于无穷范数的 Adam 变体 AdaMax。此外,我们还分析了该算法的理论收敛性质,并提供了一个和在线凸优化框架下已知最好的收敛速率相当的遗憾界。
Dec, 2014
本文提出了一个混合 Adam 和非线性共轭梯度方法的共轭梯度 Adam 算法,并展示其收敛分析。在文本分类和图像分类上的数值实验表明,该算法可以在比现有的自适应随机优化算法更少的时代数内训练深度神经网络模型。
Feb, 2020
这篇论文提出了一种新的方向锐度概念,阐述了优化算法与更新步长的方向锐度的关系,发现随机梯度下降在这方面表现远差于自适应算法,因此建议使用坐标剪裁该问题,并证明了该技术可用于提高深度学习优化的收敛速度。
May, 2023
在具有潜在无界梯度和仿射方差噪声的非凸光滑场景下,研究了 Adam 算法的理论性质,证明了它能够以高概率在多项式时间复杂度内找到一个稳定点,同时具有较好的自适应性能。
Feb, 2024
本文提出了一种变种 Adam 算法 - 基于方向保持且具有归一化的 Adam 算法 (ND-Adam),通过更精确的权重向量更新来消除 Adam 和 SGD 之间的推广差距,并进一步改善了分类任务中的推广性能。
Sep, 2017
通过利用特殊结构(如 Stiefel 流形、simplectic Stiefel 流形、Grassmann 流形和 simplectic Grassmann 流形)对神经网络优化进行降维处理,成功地将 Adam 算法推广到了流形层面上,并将其用于训练转换器,可以有效地加速训练过程。
May, 2023
本文提出了通过修改网络结构,使其缩放不变,并使用 SGD 和权重衰减进行训练的通用方法,并证明了此方法不仅可以实现稳健的训练,还可以节省内存。作者还设计了一种名为 SIBERT 的缩放不变的 BERT 版本,其性能可与使用 Adam 等自适应方法训练的 BERT 相媲美。
Feb, 2022
提出了一种无需手动调节参数的优化器 AdamG,通过使用 AdaGrad-Norm 算法中的黄金步长派生技术,自动适应不同的优化问题并实现了与手动调节学习率的 Adam 相当的优化性能。
May, 2024