本研究利用单循环方法,不需要关于距离 D 的知识,提出了一种对于复杂的凸 Lipschitz 函数时可以自适应地匹配手动调整的学习率的梯度下降算法,并且在大规模视觉和语言问题等多个领域中取得了优异的实际表现。
Jan, 2023
提出了一种名为 ADADELTA 的针对梯度下降的每维学习率的新方法,该方法仅使用一阶信息在时间上动态自适应,除了香草随机梯度下降之外几乎没有计算开销,并且不需要手动调整学习率,且与嘈杂的渐变信息、不同的模型架构选择、各种数据形态和超参数的选择都表现出鲁棒性,在 MNIST 数字分类任务上使用单个机器并在分布式群集环境中使用大规模语音数据集展示出与其他方法相比令人期待的结果。
Dec, 2012
本文探讨了两种最近的随机梯度下降学习率优化方法:D - 自适应(arXiv:2301.07733)和概率线搜索(arXiv:1502.02846)。这些方法旨在通过整合距离度量和高斯过程后验估计来减轻选择初始学习率的负担。在本文中,我对两种方法提供了直观的概述,讨论了它们共同的设计目标,并提出了合并这两种算法的可能性。
Aug, 2023
通过对自适应方法的简要分析,我们提出了 AvaGrad - 一种优化器,当其适应性调整得当时,其性能优于视觉任务中的 SGD。我们观察到我们方法的效果部分是由学习率和适应性的解耦实现,从而简化了超参数搜索。实践证明 AvaGrad 匹配了现有任何优化器(SGD 或自适应)在图像分类(CIFAR,ImageNet)和字符级语言建模(Penn Treebank)任务中提供的最佳结果。
Dec, 2019
该论文提出了一种基于行和列之和的移动平均数的方法,用于估计神经网络权重矩阵的参数,并解决了自适应方法在更新时产生的过大更新的问题。该方法能够在很少的辅助存储空间中达到与 Adam 默认规则相当的结果。
Apr, 2018
该研究提出了一种将算法发现作为程序搜索的方法,并应用于发现有关深度神经网络训练的优化算法,其中发现了一种名为 Lion 的更具内存效率的优化算法,该算法与 Adam 和 Adafactor 等优化器相比,在多种任务上取得了相似或更好的性能。
Feb, 2023
本研究提出一种新的学习率自适应算法来解决 Hypergradient 优化算法在处理大规模数据集和验证集上的表现问题,实验证明该算法在速度和精度上都能超越现有的优化算法。
Oct, 2022
本文提出了一种名为 Eve 的算法,它是一种改进的 Adam 算法,可以对每个参数单独进行自适应梯度和全局梯度的学习率调整,实验证明 Eve 在深度学习模型的训练中表现优秀。
Nov, 2016
本文研究了使用自适应优化方法训练深度神经网络的表现,提出了一些简单超参数问题,发现自适应方法得到的结果往往比梯度下降方法差,甚至可能导致结果更糟糕,建议实践者重新考虑使用自适应方法训练神经网络。
May, 2017
我们提出并研究了一种基于经验估计目标函数值的学习率自适应方法,用于随机梯度下降优化方法,并在多个神经网络学习问题中实施。我们证明了学习率自适应变体的 SGD 优化方法对于一类简单的二次最小化问题收敛于最小化器。
Jun, 2024