随机梯度下降的数据相关稳定性
本文研究了随机梯度下降方法在训练大规模机器学习模型中的应用,分析了损失函数和数据分布对其泛化性能的影响,提出了改进的数据相关的上界和下降算法来进一步了解深度网络的泛化能力。
Feb, 2021
本文提供了一种算法 —— 随机梯度下降的稳定性和泛化性的细致分析,通过消除梯度有界性、减轻光滑性和凸性函数的限制,提出了新的稳定性度量,并开发了受 SGD 迭代的风险控制的新型约束,给出了受最佳模型行为影响的泛化范围,从而在低噪声环境下使用稳定性方法得到了第一个快速上界。
Jun, 2020
本文探讨了深度学习模型的一种优化方法 —— 随机梯度下降在泛化能力上的稳定性,提出了一种基于梯度方差的稳定性指标,并在此基础上分别分析了常规非凸损失函数、梯度主导性损失函数和带强凸规则化器的问题,得到了一系列改进的泛化误差界。
Feb, 2018
本研究研究了随机梯度下降(SGD)这种普遍使用的随机优化方法的泛化特性,提供了依赖于在 SGD 计算的迭代路径上评估的随机梯度的本地统计信息的泛化误差的理论上限,其关键因素是梯度的方差及目标函数沿 SGD 路径的局部光滑性以及损失函数对最终输出的扰动敏感度和信息理论泛化界限等。
Feb, 2021
本文证明使用随机梯度方法训练的参数模型少迭代次数即可实现消失的泛化误差,提供了新的对于随机梯度方法多周期泛化性能好的解释,对于神经网络的训练也有新的稳定性解释。
Sep, 2015
本文提出了两个理论,分别使用稳定性和 PAC-Bayesian 结果的非渐进离散时间分析,研究了 Stochastic Gradient Langevin Dynamics(SGLD)在非凸目标下的泛化误差,其边界没有隐含依赖于参数的维数、规范或其他容量测量,优美地刻画了非凸设置中 “快速训练保证泛化” 的现象
Jul, 2017
本文提出 Decentralized Stochastic Gradient Descent 算法的泛化误差分析,并据此证明在凸设置下,不论选择哪种通信图,D-SGD 算法的泛化界限与经典 SGD 算法相同,即前人论述的通信图对泛化的不利影响并不成立。
Jun, 2023
本论文提出了分散化随机梯度下降法的新方法,并使用(非)凸优化理论建立了第一个针对分散化随机梯度下降法的稳定性和泛化保证。我们的理论结果基于少数常见且温和的假设,并揭示分散化将首次降低 SGD 的稳定性。通过使用多种分散化设置和基准机器学习模型,证实了我们的理论发现。
Feb, 2021
本研究为首次探讨随机梯度下降算法(SGD)在非光滑凸损失函数上的一致稳定性,得出了相关上下限并基于此获得了多项新且有用的泛化误差界限和差分隐私非光滑随机凸优化算法,且显著优于同类算法。
Jun, 2020