非凸和非光滑问题随机优化的稳定性和泛化
本文证明使用随机梯度方法训练的参数模型少迭代次数即可实现消失的泛化误差,提供了新的对于随机梯度方法多周期泛化性能好的解释,对于神经网络的训练也有新的稳定性解释。
Sep, 2015
本文研究随机算法优化非凸、非光滑的有限和问题。针对此问题,本文提出快速的随机算法,可获得常数迷你批量的收敛性。本文还使用这些算法的变种,证明了比批量近端梯度下降更快的收敛性,并在非凸、非光滑函数的一个子类中证明全局线性收敛率。
May, 2016
我们为随机梯度下降(SGD)建立了数据相关的算法稳定性概念,并利用它来开发新的泛化界限;我们的结果表明,在凸和非凸问题中,预筛选初始化是稳定SGD的一种简单数据驱动策略,并允许我们展示出乐观的泛化界限。
Mar, 2017
本文通过建立黑盒稳定性结果,仅依赖于学习算法的收敛和损失函数最小值周围的几何形态,为收敛到全局最小值的学习算法建立新的泛化界限,适用于满足Polyak-Lojasiewicz(PL)和二次增长(QG)条件的非凸损失函数以及一些具有线性激活的神经网络,并使用黑盒结果来证明SGD、GD、RCD和SVRG等优化算法的稳定性在PL和强凸设置中具有可拓展性,同时指出存在简单的具有多个局部最小值的神经网络,在PL设置下SGD稳定,但GD不稳定。
Oct, 2017
本文探讨了深度学习模型的一种优化方法——随机梯度下降在泛化能力上的稳定性,提出了一种基于梯度方差的稳定性指标,并在此基础上分别分析了常规非凸损失函数、梯度主导性损失函数和带强凸规则化器的问题,得到了一系列改进的泛化误差界。
Feb, 2018
本文提出了一种新的方法来证明算法稳定性,并且在此基础上给出了关于多次随机梯度下降和正则ERM的高概率泛化界,同时也解决了一些之前的开放性问题。
Feb, 2019
本研究为首次探讨随机梯度下降算法(SGD)在非光滑凸损失函数上的一致稳定性,得出了相关上下限并基于此获得了多项新且有用的泛化误差界限和差分隐私非光滑随机凸优化算法,且显著优于同类算法。
Jun, 2020
本文提供了一种算法——随机梯度下降的稳定性和泛化性的细致分析,通过消除梯度有界性、减轻光滑性和凸性函数的限制,提出了新的稳定性度量,并开发了受 SGD 迭代的风险控制的新型约束,给出了受最佳模型行为影响的泛化范围,从而在低噪声环境下使用稳定性方法得到了第一个快速上界。
Jun, 2020
通过算法稳定性的视角,对凸凹和非凸非凹情形下的随机梯度方法在极小极大问题中的泛化能力进行了全面的分析,建立了稳定性与泛化能力之间的定量联系。在凸凹情形下,稳定性分析表明了随机梯度下降算法对于平滑和非平滑的极小极大问题皆可达到最优的泛化界。我们还确定了泛函弱凸弱凹和梯度占主导地位的问题的泛化界。
May, 2021
我们研究了分布式随机梯度上升下降(D-SGDA)算法的原始-对偶广义界限,通过算法稳定性方法,在凸凹和非凸非凹环境下对分布式最小最大算法的广义界限进行了改进。我们的理论研究表明,分布式结构不会破坏D-SGDA的稳定性和广义化能力,在某些情况下可以实现和普通SGDA相同的广义化能力。此外,我们还评估了凸凹设定下D-SGDA算法的优化误差,并将其与广义间隙相平衡,以获得最佳的总体风险。最后,我们进行了多项数值实验来验证我们的理论发现。
Oct, 2023