Eve: 一种基于梯度的优化方法,具有局部和全局自适应学习率
通过应用不同的学习速率到梯度的不同组成部分,具有增强速度估计 (EVE) 的新颖方法创新性地优化了深度神经网络,在解决传统单一学习速率方法所面临的挑战上实现了更精细的控制和更快的收敛。此方法利用适应学习环境的动量项,更高效地导航复杂的损失表面,从而实现了更好的性能和稳定性。广泛的实验证明,EVE 在各种基准数据集和架构上明显优于现有的优化技术。
Aug, 2023
本文针对深度学习中的非凸随机优化问题,提出了适当的学习率,并使用自适应学习率优化算法(如 Adam 和 AMSGrad),可以近似问题的固定点,同时保证这些算法可以近似凸随机优化问题的全局最小值,在文本和图像分类的实验中,采用不同的学习率优化算法,结果表明使用恒定学习率性能比衰减学习率的性能更佳。
Feb, 2020
本文介绍一种通用的方法来提高基于梯度的优化算法的收敛速度,通过将该方法应用到随机梯度下降、带有 Nesterov 动量的随机梯度下降和 Adam 等常用算法上,我们展示了该方法在一系列优化问题中的有效性,大大减少了对这些算法的初始学习率进行手动调整的需求;我们的方法通过使用与更新规则自身的学习率相关的梯度在优化过程中动态更新学习率,计算这个 “超梯度” 需要很少的额外计算,只需要将原始梯度的一个额外副本存储在内存中,并且只依靠于反向模式自动微分提供的内容。
Mar, 2017
我们提出并研究了一种基于经验估计目标函数值的学习率自适应方法,用于随机梯度下降优化方法,并在多个神经网络学习问题中实施。我们证明了学习率自适应变体的 SGD 优化方法对于一类简单的二次最小化问题收敛于最小化器。
Jun, 2024
通过对自适应方法的简要分析,我们提出了 AvaGrad - 一种优化器,当其适应性调整得当时,其性能优于视觉任务中的 SGD。我们观察到我们方法的效果部分是由学习率和适应性的解耦实现,从而简化了超参数搜索。实践证明 AvaGrad 匹配了现有任何优化器(SGD 或自适应)在图像分类(CIFAR,ImageNet)和字符级语言建模(Penn Treebank)任务中提供的最佳结果。
Dec, 2019
提出了一种名为 ADADELTA 的针对梯度下降的每维学习率的新方法,该方法仅使用一阶信息在时间上动态自适应,除了香草随机梯度下降之外几乎没有计算开销,并且不需要手动调整学习率,且与嘈杂的渐变信息、不同的模型架构选择、各种数据形态和超参数的选择都表现出鲁棒性,在 MNIST 数字分类任务上使用单个机器并在分布式群集环境中使用大规模语音数据集展示出与其他方法相比令人期待的结果。
Dec, 2012
通过考虑损失函数信息以获得更好的泛化结果,我们提出了一种 AdamL 优化算法,该算法是 Adam 优化器的一种新变体。我们提供了足够的条件,以及 Polyak-Lojasiewicz 不等式,确保了 AdamL 的线性收敛性。与此分析的副产品,我们还证明了 EAdam 和 AdaBelief 优化器具有类似的收敛性质。基准函数上的实验结果表明,与 Adam、EAdam 和 AdaBelief 相比,AdamL 通常实现了最快的收敛速度或最低的目标函数值。当考虑到深度学习任务时,如训练卷积神经网络、使用普通卷积神经网络训练生成对抗网络以及长短时记忆网络,这些卓越的性能得到了证实。最后,在普通卷积神经网络的情况下,AdamL 优于其他 Adam 的变体,并且在训练的后期阶段不需要手动调整学习率。
Dec, 2023
提出了一种名为 AdaBelief 的优化器,通过根据当前梯度方向的 “信任度” 调整步长,同时达到了收敛速度快、泛化性能好和训练稳定的三个目标,并在图像分类和语言建模等领域的实验中证明了其优越性。
Oct, 2020
本文研究了使用自适应优化方法训练深度神经网络的表现,提出了一些简单超参数问题,发现自适应方法得到的结果往往比梯度下降方法差,甚至可能导致结果更糟糕,建议实践者重新考虑使用自适应方法训练神经网络。
May, 2017
本文提出了一种自适应学习率算法,该算法利用了损失函数的随机曲率信息自动调整学习率,并且提出了一种新的方差缩减技术以加速收敛,在深度神经网络实验中,相比于流行的随机梯度算法获得了更好的性能。
Mar, 2017