样本条件下的假设稳定性改进信息论泛化界
本研究提出了算法稳定性的概念,即我们称之为“参数稳定性”,它捕捉从中选择假设的函数的规范空间中学习算法产生的假设的稳定性。 论文的主要结果在于以参数稳定性来限制任何学习算法的泛化误差。这些限制基于Banach空间中的鞅不等式。 我们将普遍限制应用于基于经验风险最小化和随机梯度下降的一些学习算法的性能边界。
Feb, 2017
我们为随机梯度下降(SGD)建立了数据相关的算法稳定性概念,并利用它来开发新的泛化界限;我们的结果表明,在凸和非凸问题中,预筛选初始化是稳定SGD的一种简单数据驱动策略,并允许我们展示出乐观的泛化界限。
Mar, 2017
本文提出了一种新的方法来证明算法稳定性,并且在此基础上给出了关于多次随机梯度下降和正则ERM的高概率泛化界,同时也解决了一些之前的开放性问题。
Feb, 2019
本研究研究了随机梯度下降(SGD)这种普遍使用的随机优化方法的泛化特性,提供了依赖于在 SGD 计算的迭代路径上评估的随机梯度的本地统计信息的泛化误差的理论上限,其关键因素是梯度的方差及目标函数沿 SGD 路径的局部光滑性以及损失函数对最终输出的扰动敏感度和信息理论泛化界限等。
Feb, 2021
文中提出了一种利用概率去相关引理、对测度空间中的的概率测度进行对称化、配对和链化等技术来获得学习算法信息论泛化界限的一般性方法,进而得到新的期望值和高概率条件下泛化误差的上界,特别地,还包括了基于互信息、条件互信息、随机链和PAC-Bayes不等式等现有泛化界限的特例。此外,Fernique-Talagrand上界也是一个特例。
May, 2023
研究了具有有界更新的迭代学习算法在非凸损失函数上的泛化特性,采用信息论技术。我们的主要贡献是针对具有有界更新的这些算法提出了新的泛化误差界,超出了之前仅关注随机梯度下降(SGD)的范畴。我们的方法引入了两个新颖之处:1)我们将互信息重新表述为更新的不确定性,提供了新的视角;2)我们采用方差分解技术来分解迭代中的信息,而不是使用互信息的链式法则,从而实现了一个更简单的替代过程。我们在不同设置下分析了我们的泛化界,并展示了当模型维度与训练数据样本数量以相同的速率增加时改进的界限。为了弥合理论与实践之间的差距,我们还研究了大型语言模型中先前观察到的标度行为。最终,我们的工作为发展实用的泛化理论迈出了更进一步的步伐。
Sep, 2023
我们提供了一种新的信息理论泛化界限,用于研究随机梯度Langevin动力学(SGLD),在平滑性和耗散性的假设下。我们的界限是独立于时间的,当样本大小增加时会衰减为零,无论迭代次数和步长是否固定。与以前的研究不同,我们通过关注Kullback-Leibler散度的时间演化来推导泛化错误界限,这与数据集的稳定性有关,并且是输出参数和输入数据集之间互信息的上界。此外,我们通过展示SGLD的损失函数是次指数的来建立了第一个信息理论的泛化界限。这种界限也是独立于时间的,并消除了现有工作中的步长依赖问题,通过将我们的分析与现有的非凸优化误差界限相结合,导致改进的超额风险界限。
Nov, 2023
通过研究随机凸优化(SCO)中记忆和学习之间的相互作用,我们使用条件互信息(CMI)的框架精确刻画了学习算法的准确性和CMI之间的权衡关系,回答了Livni(2023年)提出的一个开放问题。我们进一步设计了一个对特定的SCO问题能够准确识别出训练样本的对手,展示了记忆在SCO学习问题中的重要作用,并列举了我们结果的几个启示,如基于CMI的泛化边界的局限性和SCO问题样本不可压缩性。
Feb, 2024