高维二次优化中（加速）随机梯度下降的最优性

Sep, 2024

高维二次优化中（加速）随机梯度下降的最优性

The Optimality of (Accelerated) SGD for High-Dimensional Quadratic Optimization

Haihan Zhang, Yuanshi Liu, Qianwen Chen, Cong Fang

TL;DR本研究针对高维学习中随机梯度下降（SGD）及其加速变种的最优性问题进行探讨，填补了这一领域的研究空白。通过建立动量加速SGD的收敛上界，论文提出了在特定问题下SGD或ASGD能实现最小-最大最优收敛速率的具体条件。此外，研究结果揭示了SGD在学习“稠密”特征及易问题中的高效性，并表明动量能够在相对困难的学习问题上显著加速收敛速度。

Abstract

Stochastic Gradient Descent (SGD) is a widely used algorithm in Machine Learning, particularly for neural network training. Recent studies on SGD for canonical quadratic optimization or linear regression show it

发现论文，激发创造

非光滑优化的随机梯度下降：收敛结果与最优平均方案

本文探讨了在没有光滑假设的情况下，以及通过运行平均方案将SGD迭代转换为具有最佳优化精度的解决方案的性能，并证明了对于凸非光滑目标函数，最后一个SGD迭代的次优性的程度随T的轮次按O（log（T）/ sqrt（T））缩放，对于非光滑强凸情况，次优性的程度随T按O（log（T）/ T）缩放。此外，本文提出了一种新的简单平均方案，并提供了一些实验说明。

Dec, 2012

插值的威力：理解SGD在现代超参模型学习中的有效性

本文旨在正式解释当代机器学习中观察到的SGD快速收敛现象。我们重点观察现代学习架构是过参数化的，并且被训练用于通过将经验损失（分类和回归）驱动到接近零的插值数据。我们表明，这些插值方案允许SGD快速收敛，与全梯度下降迭代次数相当。对于凸损失函数，我们获得了与全梯度下降相似的“迷你批次”SGD的指数收敛界限。关键的迷你批次大小可以视为有效迷你批次并行化的限制，并且几乎独立于数据大小。

Dec, 2017

SGD 对超参数模型的更快收敛和快速收敛，及加速感知器

通过研究表明，在现代机器学习中，采用具有极高表现力的模型进行训练，可以实现完全拟合或内插数据，从而得到零训练损失。我们证明，采用恒定步长随机梯度下降法（SGD）与Nesterov加速法具有相同的收敛速度，适用于凸和强凸函数。同时，我们发现，SGD可以在非凸情况下像全梯度下降法一样高效地找到一阶稳定点。最后，我们通过对合成和真实数据集的实验验证了我们的理论发现。

Oct, 2018

非凸区域中恒定步长随机梯度下降的分析：渐近正态性和偏差

本研究探讨了非凸非光滑目标函数中常数步长随机梯度下降算法的渐近正态结果，结果表明只要非凸和非光滑目标函数满足耗散性特性，SGD算法的迭代平均值就会渐近正态分布，该结果可用于构建对于使用SGD算法的非凸问题的置信区间。同时，本文通过对其与马尔可夫链的关系进行了详细地分析，还对目标函数的临界点与其期望值之间的偏差进行了表征。

Jun, 2020

平均加速随机梯度下降算法：有限样本速率和渐近正态性

本研究分析了随机梯度下降与动量法在强凸设置下的有限样本收敛速度，并证明了 Polyak-averaging 版本的 SGDM 估算器的渐近正态性以及其与平均 SGD 的渐近等价性。

May, 2023

SGD的加速动量：何时及为何加速？——一个实证研究

通过对比带动量的随机梯度下降（SGDM）和不带动量的随机梯度下降（SGD）的表现，发现动量加速与突然的尖峰有关，而动量的作用是防止或推迟尖峰的发生，并揭示了动量、学习率和批次大小之间的相互作用，可以加速SGDM的性能。

Jun, 2023

非光滑非凸优化中随机次梯度方法的收敛性保证

本研究论文探讨了随机梯度下降（SGD）方法及其变种在训练非光滑激活函数构建的神经网络中的收敛性质，提出了一种新的框架，分别为更新动量项和变量分配不同的时间尺度。在一些温和条件下，我们证明了我们提出的框架在单一时间尺度和双时间尺度情况下的全局收敛性。我们展示了我们提出的框架包含了许多著名的SGD类型方法，包括heavy-ball SGD、SignSGD、Lion、normalized SGD和clipped SGD。此外，当目标函数采用有限和形式时，我们证明了基于我们提出的框架的这些SGD类型方法的收敛性质。特别地，在温和的假设条件下，我们证明了这些SGD类型方法以随机选择的步长和初始点找到了目标函数的Clarke稳定点。初步的数值实验表明了我们分析的SGD类型方法的高效性。

Jul, 2023

解密SGD非凸收敛的神话与传说

通过分析，本文展示了当总迭代次数足够大时，随机梯度下降法（SGD）的最终迭代中存在一个 ε-稳定点，这是一个比现有结果更强的结论，并且可以在 SGD 的最终迭代中度量 ε-稳定点的密度，同时对于目标函数和随机梯度的边界条件，我们恢复了经典的 O(1/√T) 渐进速率，此分析结果解决了与 SGD 的非凸收敛性相关的某些迷思和传说，并提出了一些有启发性的研究方向。

Oct, 2023

过参数化线性回归的加速SGD的风险界

我们研究了加速随机梯度下降（ASGD）在过参数化线性回归中的泛化情况，建立了数据协方差矩阵的每个特征子空间下的ASGD的过量风险界限，结果显示出ASGD在小特征值子空间中的偏差误差以指数衰减的速度优于SGD，而在大特征值子空间中，偏差误差的衰减速度较慢，且ASGD的方差误差始终大于SGD的。我们的研究表明，当初始化向量与真实权重向量的差异主要集中在小特征值子空间时，ASGD可以优于SGD。此外，当我们将分析专门应用于强凸设置下的线性回归问题时，得到的偏差误差界限比已知结果更紧。

Nov, 2023

隐式逐步优化中动量在平滑目标函数中的作用

随机梯度下降(SGD)与动量在收敛性和泛化能力方面具有快速收敛和优秀的表现，但缺乏理论解释。本文证明了SGD与动量使目标函数平滑化，平滑程度由学习率、批量大小、动量因子、随机梯度的方差和梯度范数的上界决定。这一理论发现揭示了动量为何改善泛化性能，并对包括动量因子在内的超参数的作用提供了新的见解。我们还提出了一种利用SGD与动量平滑性质的隐性渐变优化算法，并提供了支持我们断言的实验结果。

Feb, 2024