样本条件下的假设稳定性改进信息论泛化界

Oct, 2023

样本条件下的假设稳定性改进信息论泛化界

Sample-Conditioned Hypothesis Stability Sharpens Information-Theoretic Generalization Bounds

Ziqiao Wang, Yongyi Mao

TL;DR我们通过“邻近假设”矩阵的新构造以及一类新的稳定性概念——样本条件假设（SCH）稳定性，提出了新的信息论一般化保证。我们的方法提供了比先前信息论界限更精确的界限，适用于各种学习场景。值得注意的是，这些界限解决了在随机凸优化（SCO）问题的背景下现有信息论界限的局限性，正如Haghifam等人的最近工作所探讨的那样（2023年）。

Abstract

We present new information-theoretic generalization guarantees through the a novel construction of the "neighboring-hypothesis" matrix and a new family of stability notions termed sample-conditioned hypothesis (SCH) stability. Our approach yields sharper bounds that improve upon previo

发现论文，激发创造

算法稳定性和假设复杂度

本研究提出了算法稳定性的概念，即我们称之为“参数稳定性”，它捕捉从中选择假设的函数的规范空间中学习算法产生的假设的稳定性。论文的主要结果在于以参数稳定性来限制任何学习算法的泛化误差。这些限制基于Banach空间中的鞅不等式。我们将普遍限制应用于基于经验风险最小化和随机梯度下降的一些学习算法的性能边界。

Feb, 2017

随机梯度下降的数据相关稳定性

我们为随机梯度下降（SGD）建立了数据相关的算法稳定性概念，并利用它来开发新的泛化界限；我们的结果表明，在凸和非凸问题中，预筛选初始化是稳定SGD的一种简单数据驱动策略，并允许我们展示出乐观的泛化界限。

Mar, 2017

均匀稳定算法的高概率泛化界限，近乎最优速率

本文提出了一种新的方法来证明算法稳定性，并且在此基础上给出了关于多次随机梯度下降和正则ERM的高概率泛化界，同时也解决了一些之前的开放性问题。

Feb, 2019

均匀稳定算法的更严格界限

这篇论文研究了学习理论中有关稳定算法的泛化界，通过构造一个弱相关随机变量的集中不等式，得到了一般性的集中界，使得上已知的高概率上界的泛化界水平得到了提高。

Oct, 2019

基于条件互信息的尖锐一般化界限及其在含噪迭代算法中的应用

研究使用超样本来计算条件互信息并提出新的紧密边界模型，应用于Langevin动力学算法以获得更紧密的假设测试边界。

Apr, 2020

随机梯度下降的信息理论泛化界

本研究研究了随机梯度下降（SGD）这种普遍使用的随机优化方法的泛化特性，提供了依赖于在 SGD 计算的迭代路径上评估的随机梯度的本地统计信息的泛化误差的理论上限，其关键因素是梯度的方差及目标函数沿 SGD 路径的局部光滑性以及损失函数对最终输出的扰动敏感度和信息理论泛化界限等。

Feb, 2021

信息论泛化界的统一框架

文中提出了一种利用概率去相关引理、对测度空间中的的概率测度进行对称化、配对和链化等技术来获得学习算法信息论泛化界限的一般性方法，进而得到新的期望值和高概率条件下泛化误差的上界，特别地，还包括了基于互信息、条件互信息、随机链和PAC-Bayes不等式等现有泛化界限的特例。此外，Fernique-Talagrand上界也是一个特例。

May, 2023

具有有界更新的迭代学习算法的泛化误差界

研究了具有有界更新的迭代学习算法在非凸损失函数上的泛化特性，采用信息论技术。我们的主要贡献是针对具有有界更新的这些算法提出了新的泛化误差界，超出了之前仅关注随机梯度下降（SGD）的范畴。我们的方法引入了两个新颖之处：1）我们将互信息重新表述为更新的不确定性，提供了新的视角；2）我们采用方差分解技术来分解迭代中的信息，而不是使用互信息的链式法则，从而实现了一个更简单的替代过程。我们在不同设置下分析了我们的泛化界，并展示了当模型维度与训练数据样本数量以相同的速率增加时改进的界限。为了弥合理论与实践之间的差距，我们还研究了大型语言模型中先前观察到的标度行为。最终，我们的工作为发展实用的泛化理论迈出了更进一步的步伐。

Sep, 2023

SGLD的独立于时间的信息论泛化界

我们提供了一种新的信息理论泛化界限，用于研究随机梯度Langevin动力学（SGLD），在平滑性和耗散性的假设下。我们的界限是独立于时间的，当样本大小增加时会衰减为零，无论迭代次数和步长是否固定。与以前的研究不同，我们通过关注Kullback-Leibler散度的时间演化来推导泛化错误界限，这与数据集的稳定性有关，并且是输出参数和输入数据集之间互信息的上界。此外，我们通过展示SGLD的损失函数是次指数的来建立了第一个信息理论的泛化界限。这种界限也是独立于时间的，并消除了现有工作中的步长依赖问题，通过将我们的分析与现有的非凸优化误差界限相结合，导致改进的超额风险界限。

Nov, 2023

随机凸优化的信息复杂性：泛化与记忆的应用

通过研究随机凸优化（SCO）中记忆和学习之间的相互作用，我们使用条件互信息（CMI）的框架精确刻画了学习算法的准确性和CMI之间的权衡关系，回答了Livni（2023年）提出的一个开放问题。我们进一步设计了一个对特定的SCO问题能够准确识别出训练样本的对手，展示了记忆在SCO学习问题中的重要作用，并列举了我们结果的几个启示，如基于CMI的泛化边界的局限性和SCO问题样本不可压缩性。

Feb, 2024