标准化方向保留 Adam
使用随机梯度下降和自适应梯度方法来训练深度神经网络,通过实验证明,尽管使用这些方法训练的模型的标准泛化性能之间的差异很小,但使用随机梯度下降来训练的模型在输入扰动下表现出更高的鲁棒性。同时研究了梯度下降和符号梯度下降在模拟自然信号的合成数据集上的学习动态,并发现使用梯度下降优化的模型对 l2 - 范数有界变化的鲁棒性与模型参数的权重范数成反比,解释了与自适应梯度方法训练的模型相比,使用随机梯度下降训练的神经网络对输入扰动有更好的鲁棒性。
Aug, 2023
提出一种混合方法 SWATS 进行训练,开头使用自适应方法 Adam,后期如果符合一定条件则切换至 SGD。实验证明,SWATS 能够缩短自适应方法和 SGD 之间的泛化差距,在多数任务上表现良好。
Dec, 2017
这篇论文提出了一种新的方向锐度概念,阐述了优化算法与更新步长的方向锐度的关系,发现随机梯度下降在这方面表现远差于自适应算法,因此建议使用坐标剪裁该问题,并证明了该技术可用于提高深度学习优化的收敛速度。
May, 2023
本篇论文探讨了 ADAM 和 RMSProp 优化算法的理论性质和收敛性能,并通过实验比较了它们与 Nesterov 梯度法在多种自编码器结构和数据集上的表现,并表明调整其超参数可以获得更好的泛化性能。
Jul, 2018
研究表明采用指数移动平均策略的自适应算法如 Adam 和 RMSProp 可以最大化神经网络的边界,而直接在条件器中加历史平方梯度的 AdaGrad 却不行。
Dec, 2020
在对使用 ReLU 和相关激活函数的浅层人工神经网络进行研究中,我们发现随机梯度下降(SGD)方法(如纯独立 SGD、动量 SGD、AdaGrad、RMSprop 和 Adam 优化器)高概率无法收敛到全局最小值,并证实了 ANN 训练问题的优化空间中存在具有不同风险值的局部最小值的分层结构。
Feb, 2024
研究二进制神经网络使用 Adam 优化相对于 SGD 优化的优势,发现 Adam 通过其自适应学习率策略更好地处理 BNN 的崎岖损失表面,并得到更好的优化结果。通过分析发现,Adam 的二阶动量正则化效应对于使 BNN 中由于激活饱和而死亡的权重重振是至关重要的,并探究了实值权重在二进制网络中的有趣作用以及权重衰减对 BNN 优化的影响。最终,我们提出了一个基于 Adam 优化的简单训练方案,使用相同的架构比最先进的 ReActNet 实现了 1.1%更高的 top-1 准确度(70.5%)。
Jun, 2021
该研究旨在通过分析局部收敛行为来解释为什么类似 ADAM 的适应性梯度算法的泛化性能比 SGD 差,尤其是它们在梯度噪声方面存在重尾现象;研究结果表明,SGD 相比于 ADAM 能更好地从局部最小值中逃脱,并且在平缓的最小值处表现更好。实验结果证实了我们的理论假设。
Oct, 2020
本文研究了使用自适应优化方法训练深度神经网络的表现,提出了一些简单超参数问题,发现自适应方法得到的结果往往比梯度下降方法差,甚至可能导致结果更糟糕,建议实践者重新考虑使用自适应方法训练神经网络。
May, 2017