本文通过证明,在处理偏重尾噪声时,AdaGrad 和 Adam 具有很差的高概率收敛性,提出了一种名为 Clip-RAdaGradD(Clipped Reweighted AdaGrad with Delay)的新版本 AdaGrad,并证明了它在处理偏重尾噪声时具有多对数相关性的高概率收敛边界。经验评估揭示出剪裁版本的 AdaGrad/Adam 在处理偏重尾噪声时具有卓越优势。
Jun, 2024
这篇论文提出了一种新的方向锐度概念,阐述了优化算法与更新步长的方向锐度的关系,发现随机梯度下降在这方面表现远差于自适应算法,因此建议使用坐标剪裁该问题,并证明了该技术可用于提高深度学习优化的收敛速度。
May, 2023
Adam 优化器在许多架构上的成功使其成为随机梯度下降表现不佳的默认选择,最近的研究表明,Adam 和其他启发式算法在语言任务上胜过 SGD,因为采样引起的误差分布具有重尾,我们通过对批处理大小进行进一步研究发现,Adam 在大批量设置中的行为类似于具有动量的符号下降。
Apr, 2023
本研究提出了 AdaCliP 差分隐私 SGD 算法,通过对梯度进行逐坐标自适应剪辑的方式,可以降低加入的噪音,从而得到更准确的模型。
Aug, 2019
该研究旨在通过分析局部收敛行为来解释为什么类似 ADAM 的适应性梯度算法的泛化性能比 SGD 差,尤其是它们在梯度噪声方面存在重尾现象;研究结果表明,SGD 相比于 ADAM 能更好地从局部最小值中逃脱,并且在平缓的最小值处表现更好。实验结果证实了我们的理论假设。
Oct, 2020
本文研究了使用自适应优化方法训练深度神经网络的表现,提出了一些简单超参数问题,发现自适应方法得到的结果往往比梯度下降方法差,甚至可能导致结果更糟糕,建议实践者重新考虑使用自适应方法训练神经网络。
May, 2017
本文提出了一种自适应学习率算法,该算法利用了损失函数的随机曲率信息自动调整学习率,并且提出了一种新的方差缩减技术以加速收敛,在深度神经网络实验中,相比于流行的随机梯度算法获得了更好的性能。
Mar, 2017
本文提出了通过修改网络结构,使其缩放不变,并使用 SGD 和权重衰减进行训练的通用方法,并证明了此方法不仅可以实现稳健的训练,还可以节省内存。作者还设计了一种名为 SIBERT 的缩放不变的 BERT 版本,其性能可与使用 Adam 等自适应方法训练的 BERT 相媲美。
Feb, 2022
本文提出了一种新的加速随机一阶方法 clipped-SSTM,该方法通过剪辑随机梯度结合特殊变体的随机梯度下降法,用于解决具有重尾分布噪声的光滑凸随机优化问题,并推导出了该方法的第一个高概率复杂度界限,证明了其优于同类方法。
May, 2020
使用随机梯度下降和自适应梯度方法来训练深度神经网络,通过实验证明,尽管使用这些方法训练的模型的标准泛化性能之间的差异很小,但使用随机梯度下降来训练的模型在输入扰动下表现出更高的鲁棒性。同时研究了梯度下降和符号梯度下降在模拟自然信号的合成数据集上的学习动态,并发现使用梯度下降优化的模型对 l2 - 范数有界变化的鲁棒性与模型参数的权重范数成反比,解释了与自适应梯度方法训练的模型相比,使用随机梯度下降训练的神经网络对输入扰动有更好的鲁棒性。
Aug, 2023