深度学习的鲁棒自适应随机梯度方法
本文针对随机梯度下降法(SGD)调参的问题,提出了一个不需调参的自动降低学习速率的方法,并通过在迭代中解决并行化、更新方法、非光滑损失函数以及 Hessian 矩阵估计等问题,提高了算法性能。最终算法具有线性复杂度和无需超参数。
Jan, 2013
本文介绍一种新的自适应学习率算法,该算法利用曲率信息自动调整学习率,并提出一种新的方差缩减技术来加速收敛。在深度神经网络的初步实验中,与常见的随机梯度算法相比获得了更好的性能。
Dec, 2014
该研究介绍了一种名为SCSG的自适应算法,通过批量方差降低和几何随机变量技术,该算法对强凸性和目标精度具有适应性,实现了比其他已有适应性算法更好的理论复杂度。
Apr, 2019
本研究利用自适应参数预处理噪声的方法,将Fisher Scoring等高阶曲率信息引入Stochastic Gradient Langevin Dynamics中,使其能够有效地跳出深度神经网络中曲率异常的波动区域,与Adam、AdaGrad等一阶自适应方法的收敛速度相当,并在测试集上实现了与SGD同等的泛化性能。
Jun, 2019
本文探究了随机梯度下降(SGD)及其变种在非消失学习率模式下的基本性质,特别是推导了离散时间SGD在二次损失函数中的稳态分布,讨论了其影响,并考虑了SGD变体的逼近误差、小批量噪音效应、最优贝叶斯推断、从尖锐最小值的逃逸率和几种包括阻尼牛顿法、自然梯度下降和Adam的二阶方法的稳态协方差等应用。
Dec, 2020
研究了一种在求解矩阵求逆等问题中具有局部二次收敛性的随机梯度下降优化方法,该方法采用自适应步长和一阶优化方法,为优化方法在深度学习中的应用提供了一条快速收敛的途径。
Dec, 2021
我们提出了一种新的逐层自适应步长过程,用于解决深度学习中用于最小化经验损失函数的随机一阶优化方法中需要调整学习率的问题,并且实验证明这种方法比fine-tuned学习率的方法以及一些常见的一阶或二阶优化方法更有效。
May, 2023
本论文主要介绍了一些关于自适应算法的研究工作,包括在随机优化、深度神经网络和非凸优化等方面的应用,提出了新算法并进行了理论和实验分析。其中,SignSGD算法具有很好的理论性质和性能,并能够自适应地适应平滑性条件。
Jun, 2023
我们提出并研究了一种基于经验估计目标函数值的学习率自适应方法,用于随机梯度下降优化方法,并在多个神经网络学习问题中实施。我们证明了学习率自适应变体的SGD优化方法对于一类简单的二次最小化问题收敛于最小化器。
Jun, 2024