ADADELTA: 自适应学习率方法
本文介绍一种通用的方法来提高基于梯度的优化算法的收敛速度,通过将该方法应用到随机梯度下降、带有 Nesterov 动量的随机梯度下降和 Adam 等常用算法上,我们展示了该方法在一系列优化问题中的有效性,大大减少了对这些算法的初始学习率进行手动调整的需求;我们的方法通过使用与更新规则自身的学习率相关的梯度在优化过程中动态更新学习率,计算这个 “超梯度” 需要很少的额外计算,只需要将原始梯度的一个额外副本存储在内存中,并且只依靠于反向模式自动微分提供的内容。
Mar, 2017
通过研究我们发现 delta-bar-delta 算法在神经网络优化过程中存在收敛问题,并提出了一种新方法 RDBD(可悔的 delta-bar-delta)来解决这些问题,并验证了其在小批量优化中克服收敛问题并提高优化算法收敛速度的有效性和效率。
Oct, 2023
本研究提出一种新的学习率自适应算法来解决 Hypergradient 优化算法在处理大规模数据集和验证集上的表现问题,实验证明该算法在速度和精度上都能超越现有的优化算法。
Oct, 2022
本文提出了一种自适应学习率算法,该算法利用了损失函数的随机曲率信息自动调整学习率,并且提出了一种新的方差缩减技术以加速收敛,在深度神经网络实验中,相比于流行的随机梯度算法获得了更好的性能。
Mar, 2017
本文提出了 AdaMod 方法来限制 Adam 方法中出现的极端学习率问题,实现深度神经网络的稳定而高效训练,对于复杂网络,如 DenseNet 和 Transformer,与 Adam 方法相比,AdaMod 方法带来了显著的改进。
Oct, 2019
AdaScale SGD 是一种可靠地适应大批量训练学习率的算法,通过不断调整梯度方差,可以实现在宽范围的批量大小下加速训练。在机器翻译,图像分类,目标检测和语音识别任务中,它可以处理大批量训练,而不会降低模型质量,因为 AdaScale 的收敛性边界可以保持最终目标值,即使批量大小增加,迭代次数减少。这个算法引入了可忽略的计算开销和没有新的超参数,因此是实现大规模训练的有吸引力的选择。
Jul, 2020
提出了 DeltaGrad 算法,用于快速重新训练基于训练阶段缓存信息的机器学习模型,以解决由于稍微更改数据集引起的代价昂贵的重新训练问题,以实现隐私性、稳健性、偏见减少和不确定性量化等多种应用,并得到了理论和实证支持,与现有技术相比效果优越。
Jun, 2020
本篇论文提出了一种新的 SGD 变体算法,降低了通信开销及提高自适应学习率,经实验证明,该算法显著降低了通信开销,进而缩短了 1B 字数据集的训练时间 30%。
Nov, 2019
我们提出并研究了一种基于经验估计目标函数值的学习率自适应方法,用于随机梯度下降优化方法,并在多个神经网络学习问题中实施。我们证明了学习率自适应变体的 SGD 优化方法对于一类简单的二次最小化问题收敛于最小化器。
Jun, 2024
本文针对深度学习中的非凸随机优化问题,提出了适当的学习率,并使用自适应学习率优化算法(如 Adam 和 AMSGrad),可以近似问题的固定点,同时保证这些算法可以近似凸随机优化问题的全局最小值,在文本和图像分类的实验中,采用不同的学习率优化算法,结果表明使用恒定学习率性能比衰减学习率的性能更佳。
Feb, 2020