SGD稳定性:紧密度分析和改进的界限
我们为随机梯度下降(SGD)建立了数据相关的算法稳定性概念,并利用它来开发新的泛化界限;我们的结果表明,在凸和非凸问题中,预筛选初始化是稳定SGD的一种简单数据驱动策略,并允许我们展示出乐观的泛化界限。
Mar, 2017
本文提出了两个理论,分别使用稳定性和PAC-Bayesian结果的非渐进离散时间分析,研究了Stochastic Gradient Langevin Dynamics(SGLD)在非凸目标下的泛化误差,其边界没有隐含依赖于参数的维数、规范或其他容量测量,优美地刻画了非凸设置中“快速训练保证泛化”的现象
Jul, 2017
本文通过建立黑盒稳定性结果,仅依赖于学习算法的收敛和损失函数最小值周围的几何形态,为收敛到全局最小值的学习算法建立新的泛化界限,适用于满足Polyak-Lojasiewicz(PL)和二次增长(QG)条件的非凸损失函数以及一些具有线性激活的神经网络,并使用黑盒结果来证明SGD、GD、RCD和SVRG等优化算法的稳定性在PL和强凸设置中具有可拓展性,同时指出存在简单的具有多个局部最小值的神经网络,在PL设置下SGD稳定,但GD不稳定。
Oct, 2017
本文探讨了深度学习模型的一种优化方法——随机梯度下降在泛化能力上的稳定性,提出了一种基于梯度方差的稳定性指标,并在此基础上分别分析了常规非凸损失函数、梯度主导性损失函数和带强凸规则化器的问题,得到了一系列改进的泛化误差界。
Feb, 2018
研究深度神经网络的训练和泛化,在过度参数化的条件下,通过神经切向随机特征模型(NTRF)来限制泛化误差,并建立了神经切向内核(NTK)的联系。
May, 2019
本研究为首次探讨随机梯度下降算法(SGD)在非光滑凸损失函数上的一致稳定性,得出了相关上下限并基于此获得了多项新且有用的泛化误差界限和差分隐私非光滑随机凸优化算法,且显著优于同类算法。
Jun, 2020
本文提供了一种算法——随机梯度下降的稳定性和泛化性的细致分析,通过消除梯度有界性、减轻光滑性和凸性函数的限制,提出了新的稳定性度量,并开发了受 SGD 迭代的风险控制的新型约束,给出了受最佳模型行为影响的泛化范围,从而在低噪声环境下使用稳定性方法得到了第一个快速上界。
Jun, 2020
本研究研究了随机梯度下降(SGD)这种普遍使用的随机优化方法的泛化特性,提供了依赖于在 SGD 计算的迭代路径上评估的随机梯度的本地统计信息的泛化误差的理论上限,其关键因素是梯度的方差及目标函数沿 SGD 路径的局部光滑性以及损失函数对最终输出的扰动敏感度和信息理论泛化界限等。
Feb, 2021
本文基于Neu et al. (2021)的最新研究,在信息论方面提出了用于衡量机器学习模型的泛化误差的新上界。 通过应用这些上界,分析了线性和ReLU网络的泛化行为,并得出了关于SGD训练的洞见以及一种新的简单的正则化方案。实验结果表明此正则方案的表现与当前最先进的方案相媲美。
Oct, 2021
本研究解决了机器学习算法的紧凑泛化界限的问题。论文提出了导致紧凑泛化界限不存在的条件,特别指出不稳定的归纳偏差算法的局限性,并证明稳定算法具有紧凑的泛化界限。研究结果表明,紧凑泛化界限的存在与算法损失的条件方差密切相关,对机器学习算法的设计与评估有重要影响。
Oct, 2024