理解梯度下降的不稳定收敛
通过研究广义 AdaGrad 步长在凸和非凸设置中,本文证明了这些步长实现梯度渐近收敛于零的充分条件,从而填补了这些方法理论上的空白。此外,本文表明这些步长允许自动适应随机梯度噪声级别在凸和非凸情况下,实现 O(1/T)到 O(1 / 根号 T)的插值(带有对数项)。
May, 2018
利用梯度下降算法训练神经网络会导致产生离散时间非线性动力系统,算法步长对这些系统的收敛行为有决定性的影响并能解释实际问题中观测到的多种现象,如训练误差的恶化和深度残差网络的性能差异等。
May, 2018
本论文提出一种简单的统计程序,可以有效地检测恒定步长随机梯度下降法的转换和稳定阶段,从而快速获得收敛结果。这种统计程序在人工数据集和实际数据集上表现出最先进的性能,即便目标函数为二次时,传统的 Pflug 检验方法也不能提供足够的诊断。
Jul, 2020
本研究提出了一种新的视角来分析随机梯度下降,即将其作为一阶随机微分方程(SDE)的离散化,进而推导出了使得离散化后的系统与连续时间系统行为相似的步长条件,并分析了算法和问题参数对误差的影响。
Jun, 2019
证明在 L - 平滑度条件下,随机梯度下降的迭代收敛速度的数量级为 O (LR2exp [-(mu/4L) T]+sigma2/muT), 其中 sigma2 是随机噪声方差,且收敛速度与最佳已知的 GD 和 SGD 迭代复杂度匹配.
Jul, 2019
本文研究了针对非强凸问题的梯度下降、均值梯度下降以及重球法等算法的加速,表明可以将这些算法重新表述为常数参数二阶差分方程算法,并提供了详细的稳定性分析和显式常数的稳定性结果。同时,本文还讨论了噪声梯度情况下的情况,并给出了一种新的算法。
Apr, 2015
分析迭代算法的收敛速度与稳定性之间的平衡问题,得出迭代算法总体表现是由最小二乘统计误差下界和稳定性共同决定的结论。以几种收敛速度较快的迭代算法为例,讨论了它们的稳定性上界和下界,并提出一些问题,说明改进收敛速度需要牺牲稳定性的平衡关系。
Apr, 2018
通过对大步长梯度下降在二次回归模型中的动力学进行全面调查,揭示了动力学可以由特定的三次映射来描述,并通过细致的分叉分析划分了五个不同的训练阶段,同时研究了非单调和非发散阶段的泛化性能。
Oct, 2023