关于非凸过参数化学习中SGD的指数收敛
通过研究表明,在现代机器学习中,采用具有极高表现力的模型进行训练,可以实现完全拟合或内插数据,从而得到零训练损失。我们证明,采用恒定步长随机梯度下降法(SGD)与Nesterov加速法具有相同的收敛速度,适用于凸和强凸函数。同时,我们发现,SGD可以在非凸情况下像全梯度下降法一样高效地找到一阶稳定点。最后,我们通过对合成和真实数据集的实验验证了我们的理论发现。
Oct, 2018
研究指出指数步长和余弦步长是自适应噪声水平的,不需要知道噪声水平和调整超参数就可以达到几乎最佳性能。探讨了这两种优化策略的收敛速度和表现,实验证明它们最多只需要调整两个超参数就可达到优秀的表现。
Feb, 2020
本文介绍了一种新颖的随机Polyak步长方法,称为SPS,它可以有效地用于随机梯度下降,特别是在训练超参数化模型时表现良好,并且在不需要任何与问题相关的常数或额外计算开销的情况下收敛速度快,并且与其他优化方法相比表现出色。
Feb, 2020
本文提出了一种现代观点和一般性的数学框架,用于涵盖超参数机器学习模型和非线性方程组的损失景观和高效优化,其中包括超参数深度神经网络,并说明这些系统的PL$^*$条件密切相关,这解释了(S)GD对全局最小值的收敛,并提出了一个放松PL$^*$条件的方法可应用于几乎超参数系统。
Feb, 2020
本文研究了随机梯度下降(SGD)在优化非凸函数方面的应用,提出了一些收敛理论,说明了在满足结构性假设的非凸问题中,SGD能够收敛到全局最小值,分析过程基于一个期望残差条件,相比之前的假设更加宽松。
Jun, 2020
在考虑非凸目标函数的随机梯度下降的情况下,我们扩展了Chatterjee(2022)的全局收敛结果。我们证明,如果我们初始化到一个局部区域,其中Lajasiewicz条件成立,那么在该局部区域内,具有正概率的随机梯度迭代会收敛到全局最小值,并且我们的证明的关键组成部分是确保SGD的整个轨迹以正概率留在局部区域内。为此,我们假设SGD噪声与目标函数成比例,称为机器学习噪声,并可在许多实际示例中实现。此外,我们提供了一个负面的论据,以表明使用类似于Robbins-Monro类型步长的有界噪声是不足以保持主要组成部分有效的。
Apr, 2023
本文提出在插值范式内的正则条件,使得随机梯度方法与确定性梯度方法具有相同的最坏迭代复杂度,同时仅在每次迭代中使用单个采样梯度(或一个小批量)。最后,我们证明了我们的条件在训练具有线性输出层的足够宽的前馈神经网络时成立。
Jun, 2023
本研究解决了现有深度学习模型优化方法需满足的特定结构条件的不足。我们提出了一种新函数类,能够在不需要大量过度参数化的情况下表征深度模型的损失景观,并证明了基于梯度的优化器在此假设下的收敛性。通过理论分析和实证实验验证了该新函数类的可靠性。
Oct, 2024
本研究针对深度学习模型损失景观的复杂非凸性,提出一种新的函数类,以解决现有优化方法对过度参数化的依赖。研究表明,在这种新假设下,基于梯度的优化器具备收敛的理论保证,且通过理论分析和实验证明了其有效性。
Oct, 2024