提出了一种新的分析技术,证明了一些熟知算法具有更强的泛化保证,并改善了这个算法稳定性的相关细节。
Dec, 2018
这篇论文研究了学习理论中有关稳定算法的泛化界,通过构造一个弱相关随机变量的集中不等式,得到了一般性的集中界,使得上已知的高概率上界的泛化界水平得到了提高。
Oct, 2019
研究证明,通过满足所谓的 Bernstein 条件,可以避免高概率广义化界限中的采样误差项,从而实现高概率过量风险边界,我们进而讨论了一些强凸和 Lipschitz 损失的方法。我们展示了任何经验风险最小化方法的 $O (log n/n)$ 高概率过量风险边界,从而解决了 Shalev-Shwartz,Shamir,Srebro 和 Sridharan(2009)的问题。
Mar, 2021
本文提出一种基于局部弹性的弱稳定性概念,用以提供具有指数通用性限制条件的机器学习算法算法稳定性,比常见的分布无关的最坏损失情况敏感性更具参考价值,该概念在支持向量机、最小二乘回归和随机梯度下降等模型中具有受限制的情况下比统一稳定性提供更紧的泛化限制条件。
Oct, 2020
探讨了算法稳定性作为分析学习算法泛化误差的可行框架的概念。引入了学习算法训练稳定性的新概念,并证明在一般情况下它足以得到泛化误差的好界。在 PAC 设置中,训练稳定性在可学习性上既是必要的也是充分的。基于训练稳定性的方法不涉及 VC 维或 VC 熵,不需要证明一致收敛,而广义 McDiarmid 不等式可直接限制泛化误差。因此,它可能使我们处理比经验风险最小化更广泛的学习算法类。还探讨了 VC 维、泛化误差和各种稳定性概念之间的关系,并考虑了几个学习算法的例子。
Dec, 2012
本文探讨了深度学习模型的一种优化方法 —— 随机梯度下降在泛化能力上的稳定性,提出了一种基于梯度方差的稳定性指标,并在此基础上分别分析了常规非凸损失函数、梯度主导性损失函数和带强凸规则化器的问题,得到了一系列改进的泛化误差界。
Feb, 2018
通过将学习理论与应用概率联系起来,引入了一种新的方法来证明随机优化算法的 Wasserstein 稳定性边界,并在强凸损失和带有附加噪声的非凸损失的情况下获得了时间均匀稳定性边界,其不随迭代次数增加而增加,并且证明了 Lyapunov 函数的重要性。
May, 2023
研究了具有有界更新的迭代学习算法在非凸损失函数上的泛化特性,采用信息论技术。我们的主要贡献是针对具有有界更新的这些算法提出了新的泛化误差界,超出了之前仅关注随机梯度下降(SGD)的范畴。我们的方法引入了两个新颖之处:1)我们将互信息重新表述为更新的不确定性,提供了新的视角;2)我们采用方差分解技术来分解迭代中的信息,而不是使用互信息的链式法则,从而实现了一个更简单的替代过程。我们在不同设置下分析了我们的泛化界,并展示了当模型维度与训练数据样本数量以相同的速率增加时改进的界限。为了弥合理论与实践之间的差距,我们还研究了大型语言模型中先前观察到的标度行为。最终,我们的工作为发展实用的泛化理论迈出了更进一步的步伐。
Sep, 2023
本文提出了两个理论,分别使用稳定性和 PAC-Bayesian 结果的非渐进离散时间分析,研究了 Stochastic Gradient Langevin Dynamics(SGLD)在非凸目标下的泛化误差,其边界没有隐含依赖于参数的维数、规范或其他容量测量,优美地刻画了非凸设置中 “快速训练保证泛化” 的现象
Jul, 2017
本文应用 Bayes-Stability 框架证明算法相关的广义误差界,得到了随机梯度 Langevin 动力学以及其他一些带噪声梯度的方法(例如加动量,小批量和加速,熵 - SGD)的数据相关的新广义误差界,论文结果较之前相关研究更紧凑。
Feb, 2019