非凸学习中带噪声梯度方法的泛化误差界
本文提出了两个理论,分别使用稳定性和 PAC-Bayesian 结果的非渐进离散时间分析,研究了 Stochastic Gradient Langevin Dynamics(SGLD)在非凸目标下的泛化误差,其边界没有隐含依赖于参数的维数、规范或其他容量测量,优美地刻画了非凸设置中 “快速训练保证泛化” 的现象
Jul, 2017
本文证明了当损失函数为亚高斯函数时,基于互信息计算的以经验风险最小化为主要准则的监督机器学习算法对训练数据过拟合的泛化误差上界,此外还探究了噪声受限的迭代算法的泛化误差上界。
Jan, 2018
本文探讨了深度学习模型的一种优化方法 —— 随机梯度下降在泛化能力上的稳定性,提出了一种基于梯度方差的稳定性指标,并在此基础上分别分析了常规非凸损失函数、梯度主导性损失函数和带强凸规则化器的问题,得到了一系列改进的泛化误差界。
Feb, 2018
我们在非凸设置下,使用均匀耗散和平滑条件对带有标签噪声的随机梯度下降(SGD)进行了泛化误差界限的研究。在合适的半度量选择下,我们建立了依赖于参数维度 $d$ 的标签噪声随机梯度流的 Wasserstein 距离压缩。利用算法稳定性框架,我们推导出了具有恒定学习率的离散化算法的时间独立泛化误差界限。我们所实现的误差界限与 $d$ 的多项式和 $n^{-2/3}$ 的速率成多项式比例,其中 $n$ 是样本大小。这个速率比在类似条件下使用参数无关高斯噪声的随机梯度朗之万动力学(SGLD)的已知最优速率 $n^{-1/2}$ 更好。我们的分析提供了关于标签噪声影响的定量洞察。
Nov, 2023
研究了具有有界更新的迭代学习算法在非凸损失函数上的泛化特性,采用信息论技术。我们的主要贡献是针对具有有界更新的这些算法提出了新的泛化误差界,超出了之前仅关注随机梯度下降(SGD)的范畴。我们的方法引入了两个新颖之处:1)我们将互信息重新表述为更新的不确定性,提供了新的视角;2)我们采用方差分解技术来分解迭代中的信息,而不是使用互信息的链式法则,从而实现了一个更简单的替代过程。我们在不同设置下分析了我们的泛化界,并展示了当模型维度与训练数据样本数量以相同的速率增加时改进的界限。为了弥合理论与实践之间的差距,我们还研究了大型语言模型中先前观察到的标度行为。最终,我们的工作为发展实用的泛化理论迈出了更进一步的步伐。
Sep, 2023
我们提供了一种新的信息理论泛化界限,用于研究随机梯度 Langevin 动力学(SGLD),在平滑性和耗散性的假设下。我们的界限是独立于时间的,当样本大小增加时会衰减为零,无论迭代次数和步长是否固定。与以前的研究不同,我们通过关注 Kullback-Leibler 散度的时间演化来推导泛化错误界限,这与数据集的稳定性有关,并且是输出参数和输入数据集之间互信息的上界。此外,我们通过展示 SGLD 的损失函数是次指数的来建立了第一个信息理论的泛化界限。这种界限也是独立于时间的,并消除了现有工作中的步长依赖问题,通过将我们的分析与现有的非凸优化误差界限相结合,导致改进的超额风险界限。
Nov, 2023
本研究研究了随机梯度下降(SGD)这种普遍使用的随机优化方法的泛化特性,提供了依赖于在 SGD 计算的迭代路径上评估的随机梯度的本地统计信息的泛化误差的理论上限,其关键因素是梯度的方差及目标函数沿 SGD 路径的局部光滑性以及损失函数对最终输出的扰动敏感度和信息理论泛化界限等。
Feb, 2021
本研究基于 Hellström 和 Durisi 的框架整合了几个使用随机子集的期望泛化误差界限,其中包括了 Bu 等人关于样本互信息和 Negrea 等人关于数据集的随机子集的界限。然后,我们介绍了 Steinke 和 Zakynthinou 在随机子采样模式下的新的类似于前两个界限的界限,并确定了该框架的一些限制。最后,我们将用于 Langevin Dynamics 的界线从 Haghifam 等人扩展到了随机梯度 Langevin Dynamics,并将其在具有潜在大梯度规范的损失函数中进行了改进。
Oct, 2020
本文改进了 Pensia,Jog 和 Loh (2018) 开始的有噪声迭代学习算法的逐步分析,并在 Bu,Zou 和 Veeravalli (2019) 的基础上最近扩展。我们主要的贡献是通过数据相关估计显著提高了随机梯度 Langevin 动力学的互信息界限。我们的方法基于互信息的变分特性和使用基于训练样本子集的数据相关先验来预测小批量梯度。我们的方法在 Russo 和 Zou (2015)、Xu 和 Raginsky (2017) 的信息论框架内广泛适用。与其他依赖于梯度平方范数的边界相比,我们的边界项的数量级要小得多,同时可以与经验风险面的平坦度指标相关联。
Nov, 2019
本文研究嘈杂迭代算法对机器学习模型泛化性能的影响,并通过与通信和信息理论中发现的加性噪声通道的联系推导出分布相关的泛化上限,得出了对几种应用的见解,包括差分隐私随机梯度下降(DP-SGD)、联邦学习和随机梯度 Langevin 动力学(SGLD)。我们通过数字实验演示了我们的边界,表明它们可以帮助理解神经网络泛化现象的最新经验观察。
Feb, 2021