自适应方法对注意力模型有什么好处？

Dec, 2019

自适应方法对注意力模型有什么好处？

Why are Adaptive Methods Good for Attention Models?

Jingzhao Zhang, Sai Praneeth Karimireddy, Andreas Veit, Seungyeon Kim, Sashank J Reddi...

TL;DR本研究表明，一种重尾梯度噪声是 SGD 性能不佳的原因之一，而剪辑梯度可应用于 BERT 预训练和微调任务中，以提高性能。

Abstract

While stochastic gradient descent (SGD) is still the \emph{de facto} algorithm in deep learning, adaptive methods like Clipped SGD/Adam have been observed to outperform SGD across important tasks, such as attenti

stochastic gradient descent adaptive methods heavy-tailed noise gradient clipping bert pretraining

发现论文，激发创造

在重尾噪声存在时，梯度剪裁改进了 AdaGrad

本文通过证明，在处理偏重尾噪声时，AdaGrad 和 Adam 具有很差的高概率收敛性，提出了一种名为 Clip-RAdaGradD（Clipped Reweighted AdaGrad with Delay）的新版本 AdaGrad，并证明了它在处理偏重尾噪声时具有多对数相关性的高概率收敛边界。经验评估揭示出剪裁版本的 AdaGrad/Adam 在处理偏重尾噪声时具有卓越优势。

Jun, 2024

探寻变形金刚为何 Adam 比 SGD 更快收敛

这篇论文提出了一种新的方向锐度概念，阐述了优化算法与更新步长的方向锐度的关系，发现随机梯度下降在这方面表现远差于自适应算法，因此建议使用坐标剪裁该问题，并证明了该技术可用于提高深度学习优化的收敛速度。

May, 2023

噪声不是 SGD 和 Adam 在变形金刚上差距的主要因素，但是符号下降可能是

Adam 优化器在许多架构上的成功使其成为随机梯度下降表现不佳的默认选择，最近的研究表明，Adam 和其他启发式算法在语言任务上胜过 SGD，因为采样引起的误差分布具有重尾，我们通过对批处理大小进行进一步研究发现，Adam 在大批量设置中的行为类似于具有动量的符号下降。

Apr, 2023

AdaCliP: 面向隐私 SGD 的自适应剪辑

本研究提出了 AdaCliP 差分隐私 SGD 算法，通过对梯度进行逐坐标自适应剪辑的方式，可以降低加入的噪音，从而得到更准确的模型。

Aug, 2019

深度学习中随机梯度下降泛化优于 ADAM 方法的理论解释

该研究旨在通过分析局部收敛行为来解释为什么类似 ADAM 的适应性梯度算法的泛化性能比 SGD 差，尤其是它们在梯度噪声方面存在重尾现象；研究结果表明，SGD 相比于 ADAM 能更好地从局部最小值中逃脱，并且在平缓的最小值处表现更好。实验结果证实了我们的理论假设。

Oct, 2020

机器学习中自适应梯度方法的边际价值

本文研究了使用自适应优化方法训练深度神经网络的表现，提出了一些简单超参数问题，发现自适应方法得到的结果往往比梯度下降方法差，甚至可能导致结果更糟糕，建议实践者重新考虑使用自适应方法训练神经网络。

May, 2017

深度学习的鲁棒自适应随机梯度方法

本文提出了一种自适应学习率算法，该算法利用了损失函数的随机曲率信息自动调整学习率，并且提出了一种新的方差缩减技术以加速收敛，在深度神经网络实验中，相比于流行的随机梯度算法获得了更好的性能。

Mar, 2017

使用尺度不变架构强化神经网络训练

本文提出了通过修改网络结构，使其缩放不变，并使用 SGD 和权重衰减进行训练的通用方法，并证明了此方法不仅可以实现稳健的训练，还可以节省内存。作者还设计了一种名为 SIBERT 的缩放不变的 BERT 版本，其性能可与使用 Adam 等自适应方法训练的 BERT 相媲美。

Feb, 2022

通过加速梯度削减实现重尾噪声的随机优化

本文提出了一种新的加速随机一阶方法 clipped-SSTM，该方法通过剪辑随机梯度结合特殊变体的随机梯度下降法，用于解决具有重尾分布噪声的光滑凸随机优化问题，并推导出了该方法的第一个高概率复杂度界限，证明了其优于同类方法。

May, 2020

理解随机梯度下降和自适应梯度方法之间的鲁棒性差异

使用随机梯度下降和自适应梯度方法来训练深度神经网络，通过实验证明，尽管使用这些方法训练的模型的标准泛化性能之间的差异很小，但使用随机梯度下降来训练的模型在输入扰动下表现出更高的鲁棒性。同时研究了梯度下降和符号梯度下降在模拟自然信号的合成数据集上的学习动态，并发现使用梯度下降优化的模型对 l2 - 范数有界变化的鲁棒性与模型参数的权重范数成反比，解释了与自适应梯度方法训练的模型相比，使用随机梯度下降训练的神经网络对输入扰动有更好的鲁棒性。

Aug, 2023