二阶信息增强方差减少梯度中的小批量鲁棒性
该研究提出了一种算法,它结合了随机梯度下降的计算效率和拟牛顿法利用的二阶曲率信息,通过维护和操作每个贡献函数的独立 Hessian 近似值实现不同的方法的统一。该算法适用于高维度优化问题,通过将这些二次近似值存储和操作在一个共享的、时变的、低维度子空间中,保持了计算可行性和限制了内存需求,且需要很少或不需要调整超参数。该算法与早期的随机二阶技术相反,早期技术将每个贡献函数的 Hessian 视为完整 Hessian 的噪声近似,而不是直接估计的目标。在七个不同的优化问题上进行了实验性的改进收敛表现,算法已发布为开源 Python 和 MATLAB 软件包。
Nov, 2013
提出了一种利用小批量方案改进半随机梯度下降(S2GD)方法的 mS2GD,该方法主要用于最小化一个由很多光滑凸函数的平均值和一个简单的非光滑凸正则化器组成的强凸函数,分析表明,该方法在具有小批量效应和简单并行实现方案的情况下,可以加速算法的收敛过程。
Apr, 2015
本研究分析了随机变量缩减梯度(SVRG)方法在非凸有限和问题中的应用,证明了其比随机梯度下降(SGD)和梯度下降(GD)更快收敛于固定点,并分析了一类SVRG在解决非凸问题上的线性收敛,同时研究了mini-batch变体的SVRG在并行设置中加速的外延。
Mar, 2016
本文提出了针对复合目标强凸的情况下,带有方差约束的随机梯度下降法,其收敛速度优于传统的随机梯度下降法,同时常数因子也更小,只与输入数据的方差有关。
Oct, 2016
本文研究了一类基于牛顿方法的优化算法在非凸机器学习问题中的应用,展示了其可以更好地利用曲率信息来逃离平坦区域和鞍点,并在泛化性能方面表现相当于或优于手动调整学习率的随机梯度下降算法。
Aug, 2017
该研究介绍了一种名为SCSG的自适应算法,通过批量方差降低和几何随机变量技术,该算法对强凸性和目标精度具有适应性,实现了比其他已有适应性算法更好的理论复杂度。
Apr, 2019
我们提出了自适应的、无需线搜索的二阶方法,以最优收敛速度解决凸凹最大最小问题,通过自适应步长,我们的算法采用简单的更新规则,每次迭代仅需解一个线性系统,消除了线搜索和回溯机制的需求,具体而言,我们基于乐观法则并将其与二阶信息合理地结合,与常见的自适应方案不同的是,我们递归地将步长定义为梯度范数和乐观更新中的预测误差的函数,我们首先分析了一种方案,其中步长需要知道Hessian的Lipschitz常数,在额外假设梯度连续Lipschitz的情况下,我们通过局部跟踪Hessian的Lipschitz常数并确保迭代保持有界,进一步设计了一个无需参数的版本,我们还通过将其与现有的二阶算法进行比较来评估我们算法的实际性能。
Jun, 2024
针对非凸优化中最小最大优化问题,本研究提出了利用高效的Hessian-向量乘积的新型修正动量算法,建立了收敛条件并证明了所提算法的迭代复杂度为O(ε^{-3})。通过在实际数据集上进行鲁棒的逻辑回归的应用验证了该方法的有效性。
Jun, 2024