大规模机器学习问题的随机比率跟踪算法
本文提出了一种自适应学习率算法,该算法利用了损失函数的随机曲率信息自动调整学习率,并且提出了一种新的方差缩减技术以加速收敛,在深度神经网络实验中,相比于流行的随机梯度算法获得了更好的性能。
Mar, 2017
我们提出了一种新的逐层自适应步长过程,用于解决深度学习中用于最小化经验损失函数的随机一阶优化方法中需要调整学习率的问题,并且实验证明这种方法比 fine-tuned 学习率的方法以及一些常见的一阶或二阶优化方法更有效。
May, 2023
研究了一种在求解矩阵求逆等问题中具有局部二次收敛性的随机梯度下降优化方法,该方法采用自适应步长和一阶优化方法,为优化方法在深度学习中的应用提供了一条快速收敛的途径。
Dec, 2021
本文针对随机优化问题提出了两种自适应步长方案,并在此基础上设计了一种局部平滑技术,以获得可微的函数逼近,从而实现了一个自适应步长随机逼近框架。在三个随机优化问题中,两种方案表现良好并且不依赖用户定义参数。
May, 2011
本文提出了一种基于损失函数进行梯度重新标度的步长自适应方案(Stepsize Adaptation Scheme),以达到对损失的预测进度的固定要求。作者用 Adam 和 Momentum 优化器进行了实验,通过该方案改进了它们的性能,在多种网络结构和数据集上进行了验证。与定常步长相比,增强优化器在不增加计算量的情况下,表现稳定优于定常步长优化器,甚至是最佳的优化器。
Feb, 2018
该研究提出了一种新颖的自适应步长方法来解决随机梯度下降(SGD)中的问题,通过利用我们识别出的可追踪的量(梯度的 Lipschitz 常数和搜索方向的局部方差的概念),我们的发现为随机优化提供了几乎无需调参的算法,该算法在应用于二次问题时具有可证明的收敛性质,并在经典图像分类任务中展现出真正的问题自适应行为。我们的框架还可以包含预处理器,从而实现对随机二阶优化方法的自适应步长的实现。
Nov, 2023
通过研究广义 AdaGrad 步长在凸和非凸设置中,本文证明了这些步长实现梯度渐近收敛于零的充分条件,从而填补了这些方法理论上的空白。此外,本文表明这些步长允许自动适应随机梯度噪声级别在凸和非凸情况下,实现 O(1/T)到 O(1 / 根号 T)的插值(带有对数项)。
May, 2018
在这篇论文中,我们展示了常用的算法(如 RMSProp 和 Adam)在调整步长向量时忽略了其适应过程对整体目标函数的影响,并通过简单问题的实验显示,与 RMSProp 和 Adam 相比,IDBD 算法可以持续改进步长向量。我们讨论了两种方法的差异和各自的限制,并建议将两种方法结合起来以提高神经网络在持续学习中的性能。
Jan, 2024
本文提出了一种名为 “自适应调度” 的算法,该算法利用奇异值得出的两个指标 “知识增益” 和 “映射条件”,并将 SGD 学习率与知识增益的变化率成比例地调整,实验表明该算法具有更快的收敛速度和更好的泛化性能。
Jun, 2020
我们提出并研究了一种基于经验估计目标函数值的学习率自适应方法,用于随机梯度下降优化方法,并在多个神经网络学习问题中实施。我们证明了学习率自适应变体的 SGD 优化方法对于一类简单的二次最小化问题收敛于最小化器。
Jun, 2024