本研究提出了一种基于信息理论的泛化误差上界方法,用以控制模型的输入输出互信息,进而指导在数据适配和泛化之间寻找平衡点。在此基础上,我们探索了一些方法,包括利用相对熵或随机噪声来正则化 ERM 算法等。这些方法扩展和改进了 Russo 和 Zou 的最近工作。
May, 2017
本文证明了当损失函数为亚高斯函数时,基于互信息计算的以经验风险最小化为主要准则的监督机器学习算法对训练数据过拟合的泛化误差上界,此外还探究了噪声受限的迭代算法的泛化误差上界。
Jan, 2018
该论文介绍了一种将锁链法和互信息法结合起来得到算法相关和利用假设间的相关性的泛化界限的技术,并提供了一个实例,其中我们的界限显著优于锁链和互信息界限;作为推论,当学习算法从高概率的小假设子集中选择其输出时,紧缩了杜德利不等式。
Jun, 2018
研究了具有有界更新的迭代学习算法在非凸损失函数上的泛化特性,采用信息论技术。我们的主要贡献是针对具有有界更新的这些算法提出了新的泛化误差界,超出了之前仅关注随机梯度下降(SGD)的范畴。我们的方法引入了两个新颖之处:1)我们将互信息重新表述为更新的不确定性,提供了新的视角;2)我们采用方差分解技术来分解迭代中的信息,而不是使用互信息的链式法则,从而实现了一个更简单的替代过程。我们在不同设置下分析了我们的泛化界,并展示了当模型维度与训练数据样本数量以相同的速率增加时改进的界限。为了弥合理论与实践之间的差距,我们还研究了大型语言模型中先前观察到的标度行为。最终,我们的工作为发展实用的泛化理论迈出了更进一步的步伐。
Sep, 2023
研究使用超样本来计算条件互信息并提出新的紧密边界模型,应用于 Langevin 动力学算法以获得更紧密的假设测试边界。
Apr, 2020
本文首次在信息理论的背景下,为传导学习算法开发了数据相关性和算法相关性的一般化界限。我们表明传导学习算法的一般化差距可以通过训练标签和假设之间的互信息来限制。通过创新性地提出传导超样本的概念,我们超越归纳学习设置,并建立了各种信息测量的上界。此外,我们派生了新颖的 PAC-Bayesian 界限,并建立了传导学习环境下一般化与损失曲面平坦性之间的联系。最后,我们提出了自适应优化算法的上界,并展示了在半监督学习和图学习场景中的应用结果。我们的理论结果在合成数据集和真实世界数据集上得到验证。
Nov, 2023
现有的监督学习泛化理论通常采用整体方法,并提供整个数据分布的期望泛化界限,这暗示了模型对所有类别的泛化情况相似。然而,在实践中,不同类别之间的泛化性能存在显著差异,这不能被现有的泛化界限所捕捉。本文通过在理论上研究类别泛化误差来解决这个问题,该误差量化了每个个体类别的泛化性能。我们使用 KL 散度推导出了一种新的信息论界限来度量类别泛化误差,并进一步利用条件互信息 (CMI) 获得了几个更紧的界限,这在实践中更容易估计。我们在不同的神经网络中经验证实了我们提出的界限能准确捕捉复杂的类别泛化误差行为。此外,我们还展示了本文所开发的理论工具能够应用在其他多个领域。
Jan, 2024
通过指数不等式的方法,我们研究了随机学习算法的泛化误差的界限和概率分布,针对亚高斯损失函数提供了以训练数据和输出假设之间信息密度为依据的新的界限,并将该方法扩展到了基于随机选择训练数据子集的情况。
May, 2020
文中提出了一种利用概率去相关引理、对测度空间中的的概率测度进行对称化、配对和链化等技术来获得学习算法信息论泛化界限的一般性方法,进而得到新的期望值和高概率条件下泛化误差的上界,特别地,还包括了基于互信息、条件互信息、随机链和 PAC-Bayes 不等式等现有泛化界限的特例。此外,Fernique-Talagrand 上界也是一个特例。
May, 2023
通过切片参数空间,我们针对机器学习算法提出新的信息理论泛化界限,证明切片可以提高泛化,并通过压缩模型的失真来收紧泛化界限,从而实现对神经网络的信息理论泛化界限的计算。
Jun, 2024