ADASECANT:用于随机梯度的鲁棒自适应割线法
本文针对随机梯度下降法(SGD)调参的问题,提出了一个不需调参的自动降低学习速率的方法,并通过在迭代中解决并行化、更新方法、非光滑损失函数以及 Hessian 矩阵估计等问题,提高了算法性能。最终算法具有线性复杂度和无需超参数。
Jan, 2013
本文提出了一种自适应学习率算法,该算法利用了损失函数的随机曲率信息自动调整学习率,并且提出了一种新的方差缩减技术以加速收敛,在深度神经网络实验中,相比于流行的随机梯度算法获得了更好的性能。
Mar, 2017
本文研究了在某些非凸机器学习模型中,随机梯度沿负曲率方向的方差,并展示了这些方向上的随机梯度表现出强烈的分量;此外,本文提出了一种新的假设,根据这个假设,注入显式同方差噪声的普通随机梯度下降可以成功地替代梯度下降逃脱鞍点;最后,本文提出了基于相同假设的简单SGD步骤的第一个收敛率,此收敛率独立于问题的维度。
Mar, 2018
该研究介绍了一种名为SCSG的自适应算法,通过批量方差降低和几何随机变量技术,该算法对强凸性和目标精度具有适应性,实现了比其他已有适应性算法更好的理论复杂度。
Apr, 2019
本研究利用自适应参数预处理噪声的方法,将Fisher Scoring等高阶曲率信息引入Stochastic Gradient Langevin Dynamics中,使其能够有效地跳出深度神经网络中曲率异常的波动区域,与Adam、AdaGrad等一阶自适应方法的收敛速度相当,并在测试集上实现了与SGD同等的泛化性能。
Jun, 2019
本文对机器学习应用中广泛使用的随机梯度下降及其变种算法在非凸优化问题中的收敛性做了一系列的理论分析,证明了在弱假设条件下,Delayed AdaGrad with momentum算法可高概率收敛于全局最优解。
Jul, 2020
本研究旨在研究基于观察的随机梯度的步长的变化,以最小化非凸光滑目标函数的AdaGrad-Norm的收敛速度,并表明AdaGrad-Norm在假设与最佳调优的非自适应SGD相同的情况下展现出与之相同的收敛速度,同时不需要任何调整参数。
Feb, 2022
本论文主要介绍了一些关于自适应算法的研究工作,包括在随机优化、深度神经网络和非凸优化等方面的应用,提出了新算法并进行了理论和实验分析。其中,SignSGD算法具有很好的理论性质和性能,并能够自适应地适应平滑性条件。
Jun, 2023
我们提出并研究了一种基于经验估计目标函数值的学习率自适应方法,用于随机梯度下降优化方法,并在多个神经网络学习问题中实施。我们证明了学习率自适应变体的SGD优化方法对于一类简单的二次最小化问题收敛于最小化器。
Jun, 2024