迭代优化算法的稳定性与收敛折衷

Apr, 2018

迭代优化算法的稳定性与收敛折衷

Stability and Convergence Trade-off of Iterative Optimization Algorithms

Yuansi Chen, Chi Jin, Bin Yu

TL;DR分析迭代算法的收敛速度与稳定性之间的平衡问题，得出迭代算法总体表现是由最小二乘统计误差下界和稳定性共同决定的结论。以几种收敛速度较快的迭代算法为例，讨论了它们的稳定性上界和下界，并提出一些问题，说明改进收敛速度需要牺牲稳定性的平衡关系。

Abstract

The overall performance or expected excess risk of an iterative machine learning algorithm can be decomposed into training error and generalization error. While the former is controlled by its convergence analysis, the latter can be tightly handled by algorithmic →

machine learning convergence stability gradient descent generalization error

发现论文，激发创造

收敛于全局最优解的学习算法的稳定性和泛化性

本文通过建立黑盒稳定性结果，仅依赖于学习算法的收敛和损失函数最小值周围的几何形态，为收敛到全局最小值的学习算法建立新的泛化界限，适用于满足 Polyak-Lojasiewicz（PL）和二次增长（QG）条件的非凸损失函数以及一些具有线性激活的神经网络，并使用黑盒结果来证明 SGD、GD、RCD 和 SVRG 等优化算法的稳定性在 PL 和强凸设置中具有可拓展性，同时指出存在简单的具有多个局部最小值的神经网络，在 PL 设置下 SGD 稳定，但 GD 不稳定。

Oct, 2017

随机梯度下降的稳定性和泛化的精细分析

本文提供了一种算法 —— 随机梯度下降的稳定性和泛化性的细致分析，通过消除梯度有界性、减轻光滑性和凸性函数的限制，提出了新的稳定性度量，并开发了受 SGD 迭代的风险控制的新型约束，给出了受最佳模型行为影响的泛化范围，从而在低噪声环境下使用稳定性方法得到了第一个快速上界。

Jun, 2020

随机梯度下降法在极小极大问题中的稳定性和泛化性

通过算法稳定性的视角，对凸凹和非凸非凹情形下的随机梯度方法在极小极大问题中的泛化能力进行了全面的分析，建立了稳定性与泛化能力之间的定量联系。在凸凹情形下，稳定性分析表明了随机梯度下降算法对于平滑和非平滑的极小极大问题皆可达到最优的泛化界。我们还确定了泛函弱凸弱凹和梯度占主导地位的问题的泛化界。

May, 2021

非凸优化中具有概率保障的随机梯度下降泛化误差界

本文探讨了深度学习模型的一种优化方法 —— 随机梯度下降在泛化能力上的稳定性，提出了一种基于梯度方差的稳定性指标，并在此基础上分别分析了常规非凸损失函数、梯度主导性损失函数和带强凸规则化器的问题，得到了一系列改进的泛化误差界。

Feb, 2018

从平均到加速，只有步长

本文研究了针对非强凸问题的梯度下降、均值梯度下降以及重球法等算法的加速，表明可以将这些算法重新表述为常数参数二阶差分方程算法，并提供了详细的稳定性分析和显式常数的稳定性结果。同时，本文还讨论了噪声梯度情况下的情况，并给出了一种新的算法。

Apr, 2015

SGD 稳定性：紧密度分析和改进的界限

本文研究了随机梯度下降方法在训练大规模机器学习模型中的应用，分析了损失函数和数据分布对其泛化性能的影响，提出了改进的数据相关的上界和下降算法来进一步了解深度网络的泛化能力。

Feb, 2021

随机梯度下降对于配对学习的稳定性和优化误差分析

研究了随机梯度下降优化算法在成对学习中稳定性与其与优化误差的权衡，并证明了成对学习的凸性、强凸性和非凸性稳定结果，并由此得出推广区间，同时得到了 SGD 算法的优化误差和预期风险的下限。

Apr, 2019

随机梯度下降优化算法的强误差分析

本文对随机梯度下降（SGD）优化算法进行了严格的强误差分析，并证明了在标准凸性类型的目标函数和 SGD 优化算法中出现的随机误差的松弛假设下，对于任意小的 ε 和任意大的 p，所考虑的 SGD 优化算法都会按照 1/2-ε 的阶数在强 L^p 意义下收敛到全局最小值。本文的证明重点在于首先运用动力系统中的 Lyapunov-type 函数理论技术开发出一般的 SGD 优化算法收敛技术，然后应用具有多项式结构的具体 Lyapunov-type 函数，并在出现在 Lyapunov-type 函数中的幂上执行归纳论证，以达到在强 L^p 意义下实现任意大 p 收敛率的目的。

Jan, 2018

训练更快，泛化更好：随机梯度下降的稳定性

本文证明使用随机梯度方法训练的参数模型少迭代次数即可实现消失的泛化误差，提供了新的对于随机梯度方法多周期泛化性能好的解释，对于神经网络的训练也有新的稳定性解释。

Sep, 2015

理解梯度下降的不稳定收敛

本研究从基本原理出发，探讨了机器学习中梯度下降法中步长远大于 $2/L$ 时导致不稳定收敛的现象特征和成因，结合理论和实验给出了系统的认识。

Apr, 2022