基于一致稳定算法的泛化界限
本文提出了一种新的方法来证明算法稳定性,并且在此基础上给出了关于多次随机梯度下降和正则 ERM 的高概率泛化界,同时也解决了一些之前的开放性问题。
Feb, 2019
本文提出一种基于局部弹性的弱稳定性概念,用以提供具有指数通用性限制条件的机器学习算法算法稳定性,比常见的分布无关的最坏损失情况敏感性更具参考价值,该概念在支持向量机、最小二乘回归和随机梯度下降等模型中具有受限制的情况下比统一稳定性提供更紧的泛化限制条件。
Oct, 2020
研究证明,通过满足所谓的 Bernstein 条件,可以避免高概率广义化界限中的采样误差项,从而实现高概率过量风险边界,我们进而讨论了一些强凸和 Lipschitz 损失的方法。我们展示了任何经验风险最小化方法的 $O (log n/n)$ 高概率过量风险边界,从而解决了 Shalev-Shwartz,Shamir,Srebro 和 Sridharan(2009)的问题。
Mar, 2021
探讨了算法稳定性作为分析学习算法泛化误差的可行框架的概念。引入了学习算法训练稳定性的新概念,并证明在一般情况下它足以得到泛化误差的好界。在 PAC 设置中,训练稳定性在可学习性上既是必要的也是充分的。基于训练稳定性的方法不涉及 VC 维或 VC 熵,不需要证明一致收敛,而广义 McDiarmid 不等式可直接限制泛化误差。因此,它可能使我们处理比经验风险最小化更广泛的学习算法类。还探讨了 VC 维、泛化误差和各种稳定性概念之间的关系,并考虑了几个学习算法的例子。
Dec, 2012
研究了具有有界更新的迭代学习算法在非凸损失函数上的泛化特性,采用信息论技术。我们的主要贡献是针对具有有界更新的这些算法提出了新的泛化误差界,超出了之前仅关注随机梯度下降(SGD)的范畴。我们的方法引入了两个新颖之处:1)我们将互信息重新表述为更新的不确定性,提供了新的视角;2)我们采用方差分解技术来分解迭代中的信息,而不是使用互信息的链式法则,从而实现了一个更简单的替代过程。我们在不同设置下分析了我们的泛化界,并展示了当模型维度与训练数据样本数量以相同的速率增加时改进的界限。为了弥合理论与实践之间的差距,我们还研究了大型语言模型中先前观察到的标度行为。最终,我们的工作为发展实用的泛化理论迈出了更进一步的步伐。
Sep, 2023
通过将学习理论与应用概率联系起来,引入了一种新的方法来证明随机优化算法的 Wasserstein 稳定性边界,并在强凸损失和带有附加噪声的非凸损失的情况下获得了时间均匀稳定性边界,其不随迭代次数增加而增加,并且证明了 Lyapunov 函数的重要性。
May, 2023
本文证明了当损失函数为亚高斯函数时,基于互信息计算的以经验风险最小化为主要准则的监督机器学习算法对训练数据过拟合的泛化误差上界,此外还探究了噪声受限的迭代算法的泛化误差上界。
Jan, 2018
本研究提出了算法稳定性的概念,即我们称之为 “参数稳定性”,它捕捉从中选择假设的函数的规范空间中学习算法产生的假设的稳定性。 论文的主要结果在于以参数稳定性来限制任何学习算法的泛化误差。这些限制基于 Banach 空间中的鞅不等式。 我们将普遍限制应用于基于经验风险最小化和随机梯度下降的一些学习算法的性能边界。
Feb, 2017
本文应用 Bayes-Stability 框架证明算法相关的广义误差界,得到了随机梯度 Langevin 动力学以及其他一些带噪声梯度的方法(例如加动量,小批量和加速,熵 - SGD)的数据相关的新广义误差界,论文结果较之前相关研究更紧凑。
Feb, 2019