理解梯度下降的不稳定收敛

ICMLApr, 2022

Understanding the unstable convergence of gradient descent

Kwangjun Ahn, Jingzhao Zhang, Suvrit Sra

TL;DR本研究从基本原理出发，探讨了机器学习中梯度下降法中步长远大于 $2/L$ 时导致不稳定收敛的现象特征和成因，结合理论和实验给出了系统的认识。

Abstract

Most existing analyses of (stochastic) gradient descent rely on the condition that for $L$-smooth costs, the step size is less than $2/L$. However, many works have observed that in →

gradient descent step size unstable convergence machine learning first principles

发现论文，激发创造

自适应步长随机梯度下降算法的收敛性

通过研究广义 AdaGrad 步长在凸和非凸设置中，本文证明了这些步长实现梯度渐近收敛于零的充分条件，从而填补了这些方法理论上的空白。此外，本文表明这些步长允许自动适应随机梯度噪声级别在凸和非凸情况下，实现 O（1/T）到 O（1 / 根号 T）的插值（带有对数项）。

May, 2018

深度学习中步长的重要性

利用梯度下降算法训练神经网络会导致产生离散时间非线性动力系统，算法步长对这些系统的收敛行为有决定性的影响并能解释实际问题中观测到的多种现象，如训练误差的恶化和深度残差网络的性能差异等。

May, 2018

基于收敛诊断的随机梯度下降的步长

本论文提出一种简单的统计程序，可以有效地检测恒定步长随机梯度下降法的转换和稳定阶段，从而快速获得收敛结果。这种统计程序在人工数据集和实际数据集上表现出最先进的性能，即便目标函数为二次时，传统的 Pflug 检验方法也不能提供足够的诊断。

Jul, 2020

重尾梯度噪声下随机梯度下降的首次退出时间分析

本研究提出了一种新的视角来分析随机梯度下降，即将其作为一阶随机微分方程（SDE）的离散化，进而推导出了使得离散化后的系统与连续时间系统行为相似的步长条件，并分析了算法和问题参数对误差的影响。

Jun, 2019

（随机）梯度方法的统一最优分析

证明在 L - 平滑度条件下，随机梯度下降的迭代收敛速度的数量级为 O (LR2exp [-(mu/4L) T]+sigma2/muT), 其中 sigma2 是随机噪声方差，且收敛速度与最佳已知的 GD 和 SGD 迭代复杂度匹配.

Jul, 2019

从平均到加速，只有步长

本文研究了针对非强凸问题的梯度下降、均值梯度下降以及重球法等算法的加速，表明可以将这些算法重新表述为常数参数二阶差分方程算法，并提供了详细的稳定性分析和显式常数的稳定性结果。同时，本文还讨论了噪声梯度情况下的情况，并给出了一种新的算法。

Apr, 2015

非可分数据和大步长情况下的逻辑回归梯度下降

研究了使用大的恒定步长的逻辑回归问题上的梯度下降（GD）动态。

Jun, 2024

迭代优化算法的稳定性与收敛折衷

分析迭代算法的收敛速度与稳定性之间的平衡问题，得出迭代算法总体表现是由最小二乘统计误差下界和稳定性共同决定的结论。以几种收敛速度较快的迭代算法为例，讨论了它们的稳定性上界和下界，并提出一些问题，说明改进收敛速度需要牺牲稳定性的平衡关系。

Apr, 2018

通过长步长可证明更快的梯度下降算法

本研究利用计算机辅助分析技术，建立了梯度下降的收敛速度证明，并通过分析多次迭代的总体效果，描述了长步策略可能违反下降性质但能实现更快的收敛速度。

Jul, 2023

从稳定到混沌：分析二次回归中的梯度下降动态

通过对大步长梯度下降在二次回归模型中的动力学进行全面调查，揭示了动力学可以由特定的三次映射来描述，并通过细致的分叉分析划分了五个不同的训练阶段，同时研究了非单调和非发散阶段的泛化性能。

Oct, 2023