通过条件互信息推理广义化问题
本研究提出了一种基于信息理论的泛化误差上界方法,用以控制模型的输入输出互信息,进而指导在数据适配和泛化之间寻找平衡点。在此基础上,我们探索了一些方法,包括利用相对熵或随机噪声来正则化ERM算法等。这些方法扩展和改进了Russo和Zou的最近工作。
May, 2017
该论文介绍了一种将锁链法和互信息法结合起来得到算法相关和利用假设间的相关性的泛化界限的技术,并提供了一个实例,其中我们的界限显著优于锁链和互信息界限;作为推论,当学习算法从高概率的小假设子集中选择其输出时,紧缩了杜德利不等式。
Jun, 2018
本文提供了通用的、数据无关的 Mutual Information 估计方法,其中包括新的下限估计器。通过实验测试我们的方法在高维问题中具有强大的表现,特别是在变量之间存在非线性关系时。
May, 2019
文中提出了一种利用概率去相关引理、对测度空间中的的概率测度进行对称化、配对和链化等技术来获得学习算法信息论泛化界限的一般性方法,进而得到新的期望值和高概率条件下泛化误差的上界,特别地,还包括了基于互信息、条件互信息、随机链和PAC-Bayes不等式等现有泛化界限的特例。此外,Fernique-Talagrand上界也是一个特例。
May, 2023
算法和数据相关的广义化界限是解释现代机器学习算法的广义化行为所必需的。在这个背景下,存在包括(各种形式的)互信息和基于假设集稳定性的信息论广义化界限。我们提出了一个概念上相关但技术上独特的复杂度度量方法来控制广义化误差,这就是算法和数据相关的假设类的经验Rademacher复杂度。通过结合Rademacher复杂度的标准特性和这个类的方便结构,我们能够(i)获得基于有限分形维度的新界限,这些界限将之前从连续假设类推广到有限假设类,并避免了先前工作中所需的互信息项;(ii)大大简化了最近一个和维度无关的随机梯度下降的广义化界限的证明;(iii)我们轻松恢复了VC类和压缩方案的结果,类似于基于条件互信息的方法。
Jul, 2023
现有的监督学习泛化理论通常采用整体方法,并提供整个数据分布的期望泛化界限,这暗示了模型对所有类别的泛化情况相似。然而,在实践中,不同类别之间的泛化性能存在显著差异,这不能被现有的泛化界限所捕捉。本文通过在理论上研究类别泛化误差来解决这个问题,该误差量化了每个个体类别的泛化性能。我们使用KL散度推导出了一种新的信息论界限来度量类别泛化误差,并进一步利用条件互信息(CMI)获得了几个更紧的界限,这在实践中更容易估计。我们在不同的神经网络中经验证实了我们提出的界限能准确捕捉复杂的类别泛化误差行为。此外,我们还展示了本文所开发的理论工具能够应用在其他多个领域。
Jan, 2024
通过切片参数空间,我们针对机器学习算法提出新的信息理论泛化界限,证明切片可以提高泛化,并通过压缩模型的失真来收紧泛化界限,从而实现对神经网络的信息理论泛化界限的计算。
Jun, 2024
本研究解决了机器学习算法在训练数据上的泛化问题,提出了一种基于信息论的分析方法,突破了传统复杂性方法的局限。我们引入了瓦瑟斯坦距离来考虑几何性质,并针对概率绑定引入了新的更紧的界限,展示了在特定隐私约束下,算法同样可以实现良好的泛化性能,为泛化理论提供了新的视角。
Aug, 2024