迭代优化算法的稳定性与收敛折衷
本文通过建立黑盒稳定性结果,仅依赖于学习算法的收敛和损失函数最小值周围的几何形态,为收敛到全局最小值的学习算法建立新的泛化界限,适用于满足 Polyak-Lojasiewicz(PL)和二次增长(QG)条件的非凸损失函数以及一些具有线性激活的神经网络,并使用黑盒结果来证明 SGD、GD、RCD 和 SVRG 等优化算法的稳定性在 PL 和强凸设置中具有可拓展性,同时指出存在简单的具有多个局部最小值的神经网络,在 PL 设置下 SGD 稳定,但 GD 不稳定。
Oct, 2017
本文提供了一种算法 —— 随机梯度下降的稳定性和泛化性的细致分析,通过消除梯度有界性、减轻光滑性和凸性函数的限制,提出了新的稳定性度量,并开发了受 SGD 迭代的风险控制的新型约束,给出了受最佳模型行为影响的泛化范围,从而在低噪声环境下使用稳定性方法得到了第一个快速上界。
Jun, 2020
通过算法稳定性的视角,对凸凹和非凸非凹情形下的随机梯度方法在极小极大问题中的泛化能力进行了全面的分析,建立了稳定性与泛化能力之间的定量联系。在凸凹情形下,稳定性分析表明了随机梯度下降算法对于平滑和非平滑的极小极大问题皆可达到最优的泛化界。我们还确定了泛函弱凸弱凹和梯度占主导地位的问题的泛化界。
May, 2021
本文探讨了深度学习模型的一种优化方法 —— 随机梯度下降在泛化能力上的稳定性,提出了一种基于梯度方差的稳定性指标,并在此基础上分别分析了常规非凸损失函数、梯度主导性损失函数和带强凸规则化器的问题,得到了一系列改进的泛化误差界。
Feb, 2018
本文研究了针对非强凸问题的梯度下降、均值梯度下降以及重球法等算法的加速,表明可以将这些算法重新表述为常数参数二阶差分方程算法,并提供了详细的稳定性分析和显式常数的稳定性结果。同时,本文还讨论了噪声梯度情况下的情况,并给出了一种新的算法。
Apr, 2015
本文研究了随机梯度下降方法在训练大规模机器学习模型中的应用,分析了损失函数和数据分布对其泛化性能的影响,提出了改进的数据相关的上界和下降算法来进一步了解深度网络的泛化能力。
Feb, 2021
研究了随机梯度下降优化算法在成对学习中稳定性与其与优化误差的权衡,并证明了成对学习的凸性、强凸性和非凸性稳定结果,并由此得出推广区间,同时得到了 SGD 算法的优化误差和预期风险的下限。
Apr, 2019
本文对随机梯度下降(SGD)优化算法进行了严格的强误差分析,并证明了在标准凸性类型的目标函数和 SGD 优化算法中出现的随机误差的松弛假设下,对于任意小的 ε 和任意大的 p,所考虑的 SGD 优化算法都会按照 1/2-ε 的阶数在强 L^p 意义下收敛到全局最小值。本文的证明重点在于首先运用动力系统中的 Lyapunov-type 函数理论技术开发出一般的 SGD 优化算法收敛技术,然后应用具有多项式结构的具体 Lyapunov-type 函数,并在出现在 Lyapunov-type 函数中的幂上执行归纳论证,以达到在强 L^p 意义下实现任意大 p 收敛率的目的。
Jan, 2018
本文证明使用随机梯度方法训练的参数模型少迭代次数即可实现消失的泛化误差,提供了新的对于随机梯度方法多周期泛化性能好的解释,对于神经网络的训练也有新的稳定性解释。
Sep, 2015