二阶信息增强方差减少梯度中的小批量鲁棒性

Apr, 2024

二阶信息增强方差减少梯度中的小批量鲁棒性

Second-order Information Promotes Mini-Batch Robustness in Variance-Reduced Gradients

Sachin Garg, Albert S. Berahas, Michał Dereziński

TL;DR对有限和最小化问题，我们展示了在目标函数中引入部分二阶信息可以显著提高方差减小的随机梯度方法对小批量大小的稳健性，从而使其在保留传统牛顿类型方法的优势的同时更具可伸缩性。

Abstract

We show that, for finite-sum minimization problems, incorporating partial second-order information of the objective function can dramatically improve the robustness to mini-batch size of →

发现论文，激发创造

统一随机梯度下降和拟牛顿法的快速大规模优化

该研究提出了一种算法，它结合了随机梯度下降的计算效率和拟牛顿法利用的二阶曲率信息，通过维护和操作每个贡献函数的独立 Hessian 近似值实现不同的方法的统一。该算法适用于高维度优化问题，通过将这些二次近似值存储和操作在一个共享的、时变的、低维度子空间中，保持了计算可行性和限制了内存需求，且需要很少或不需要调整超参数。该算法与早期的随机二阶技术相反，早期技术将每个贡献函数的 Hessian 视为完整 Hessian 的噪声近似，而不是直接估计的目标。在七个不同的优化问题上进行了实验性的改进收敛表现，算法已发布为开源 Python 和 MATLAB 软件包。

Nov, 2013

近端设置下的小批量半随机梯度下降

提出了一种利用小批量方案改进半随机梯度下降（S2GD）方法的 mS2GD，该方法主要用于最小化一个由很多光滑凸函数的平均值和一个简单的非光滑凸正则化器组成的强凸函数，分析表明，该方法在具有小批量效应和简单并行实现方案的情况下，可以加速算法的收敛过程。

Apr, 2015

线性时间内的机器学习二阶随机优化

本文提出了一种可以匹配第一阶段方法迭代成本的机器学习优化问题的二阶随机方法，具有线性时间实现的稀疏输入数据。

Feb, 2016

非凸优化的随机方差缩减

本研究分析了随机变量缩减梯度（SVRG）方法在非凸有限和问题中的应用，证明了其比随机梯度下降（SGD）和梯度下降（GD）更快收敛于固定点，并分析了一类SVRG在解决非凸问题上的线性收敛，同时研究了mini-batch变体的SVRG在并行设置中加速的外延。

Mar, 2016

基于方差减少的随机优化算法在具有有限和结构的无限数据集上的应用

本文提出了针对复合目标强凸的情况下，带有方差约束的随机梯度下降法，其收敛速度优于传统的随机梯度下降法，同时常数因子也更小，只与输入数据的方差有关。

Oct, 2016

非凸机器学习的二阶优化：一个经验性研究

本文研究了一类基于牛顿方法的优化算法在非凸机器学习问题中的应用，展示了其可以更好地利用曲率信息来逃离平坦区域和鞍点，并在泛化性能方面表现相当于或优于手动调整学习率的随机梯度下降算法。

Aug, 2017

随机梯度下降优化方法的适应性

该研究介绍了一种名为SCSG的自适应算法，通过批量方差降低和几何随机变量技术，该算法对强凸性和目标精度具有适应性，实现了比其他已有适应性算法更好的理论复杂度。

Apr, 2019

针对复合凸光滑优化的随机梯度方法统一分析

本文为最小化平滑和凸损失加上凸正则化的随机梯度算法提供了一致的收敛性分析定理，并探讨了特定算法的最优小批量大小。

Jun, 2020

自适应和最优的二阶乐观方法在极小极大优化中的应用

我们提出了自适应的、无需线搜索的二阶方法，以最优收敛速度解决凸凹最大最小问题，通过自适应步长，我们的算法采用简单的更新规则，每次迭代仅需解一个线性系统，消除了线搜索和回溯机制的需求，具体而言，我们基于乐观法则并将其与二阶信息合理地结合，与常见的自适应方案不同的是，我们递归地将步长定义为梯度范数和乐观更新中的预测误差的函数，我们首先分析了一种方案，其中步长需要知道Hessian的Lipschitz常数，在额外假设梯度连续Lipschitz的情况下，我们通过局部跟踪Hessian的Lipschitz常数并确保迭代保持有界，进一步设计了一个无需参数的版本，我们还通过将其与现有的二阶算法进行比较来评估我们算法的实际性能。

Jun, 2024

基于修正偏置动量的加速随机极小-极大优化

针对非凸优化中最小最大优化问题，本研究提出了利用高效的Hessian-向量乘积的新型修正动量算法，建立了收敛条件并证明了所提算法的迭代复杂度为O(ε^{-3})。通过在实际数据集上进行鲁棒的逻辑回归的应用验证了该方法的有效性。

Jun, 2024