非负 Gauss-Newton 步长的自适应随机梯度方法
本篇论文研究了关于随机逼近问题的现有算法,提出了两种新型随机梯度算法,并在回归和逻辑分类两种经典的监督学习问题上进行了测试,得到了较好的优化效果。
Jun, 2013
该研究提出了一种算法,它结合了随机梯度下降的计算效率和拟牛顿法利用的二阶曲率信息,通过维护和操作每个贡献函数的独立 Hessian 近似值实现不同的方法的统一。该算法适用于高维度优化问题,通过将这些二次近似值存储和操作在一个共享的、时变的、低维度子空间中,保持了计算可行性和限制了内存需求,且需要很少或不需要调整超参数。该算法与早期的随机二阶技术相反,早期技术将每个贡献函数的 Hessian 视为完整 Hessian 的噪声近似,而不是直接估计的目标。在七个不同的优化问题上进行了实验性的改进收敛表现,算法已发布为开源 Python 和 MATLAB 软件包。
Nov, 2013
论文描述了一种框架,用于推导和分析在线优化算法,包括数据相关正则化,称为预调节。该框架捕获和统一了许多关于自适应在线方法的现有文献,包括AdaGrad和Online Newton Step算法及其对角线版本。我们得到了这些算法的新收敛证明,这些证明比以前的分析要简单得多。我们的框架还揭示了常见随机优化方法中不同预调节更新的基本原理。
Jun, 2017
通过研究广义AdaGrad步长在凸和非凸设置中,本文证明了这些步长实现梯度渐近收敛于零的充分条件,从而填补了这些方法理论上的空白。此外,本文表明这些步长允许自动适应随机梯度噪声级别在凸和非凸情况下,实现O(1/T)到O(1/根号T)的插值(带有对数项)。
May, 2018
研究了一种在求解矩阵求逆等问题中具有局部二次收敛性的随机梯度下降优化方法,该方法采用自适应步长和一阶优化方法,为优化方法在深度学习中的应用提供了一条快速收敛的途径。
Dec, 2021
本研究旨在研究基于观察的随机梯度的步长的变化,以最小化非凸光滑目标函数的AdaGrad-Norm的收敛速度,并表明AdaGrad-Norm在假设与最佳调优的非自适应SGD相同的情况下展现出与之相同的收敛速度,同时不需要任何调整参数。
Feb, 2022
本文研究了在大规模统计学环境中用于机器学习和信号处理的 Gauss-Newton 方法及其随机版本,以及它们的非光滑对应物 prox-linear 算法。该文在一个简化的统计学例子和结构化预测学习问题上,对这两类算法的对比表现进行了理论和实验研究,着重研究了在统计噪声下 modified Gauss-Newton 方法二次收敛的适用范围,并强调了随机梯度下降优化非光滑复合目标函数的多用途性。
May, 2023
该研究提出了一种新颖的自适应步长方法来解决随机梯度下降(SGD)中的问题,通过利用我们识别出的可追踪的量(梯度的 Lipschitz 常数和搜索方向的局部方差的概念),我们的发现为随机优化提供了几乎无需调参的算法,该算法在应用于二次问题时具有可证明的收敛性质,并在经典图像分类任务中展现出真正的问题自适应行为。我们的框架还可以包含预处理器,从而实现对随机二阶优化方法的自适应步长的实现。
Nov, 2023