我们提出了基于 Bu 等人的误差分解技术和 Steinke 和 Zakynthinou 的条件互信息构造的新的信息论泛化误差界限,通过减少条件互信息中的条件项,我们克服了现有界限的问题,并建立了一个条件解耦引理。
Dec, 2020
本文提出了基于分类器和生成模型的方法来解决条件互信息估计中高维造成的维度灾难问题,并使用提出的方法来进行条件独立性检验,相比于现有方法取得了优越的表现。
Jun, 2019
本研究提出了一种基于信息理论的泛化误差上界方法,用以控制模型的输入输出互信息,进而指导在数据适配和泛化之间寻找平衡点。在此基础上,我们探索了一些方法,包括利用相对熵或随机噪声来正则化 ERM 算法等。这些方法扩展和改进了 Russo 和 Zou 的最近工作。
May, 2017
现有的监督学习泛化理论通常采用整体方法,并提供整个数据分布的期望泛化界限,这暗示了模型对所有类别的泛化情况相似。然而,在实践中,不同类别之间的泛化性能存在显著差异,这不能被现有的泛化界限所捕捉。本文通过在理论上研究类别泛化误差来解决这个问题,该误差量化了每个个体类别的泛化性能。我们使用 KL 散度推导出了一种新的信息论界限来度量类别泛化误差,并进一步利用条件互信息 (CMI) 获得了几个更紧的界限,这在实践中更容易估计。我们在不同的神经网络中经验证实了我们提出的界限能准确捕捉复杂的类别泛化误差行为。此外,我们还展示了本文所开发的理论工具能够应用在其他多个领域。
Jan, 2024
该研究旨在提供信息论概括界限及其与 PAC-Bayes 的关联的全面介绍,为最近的发展提供基础,广泛面向对概括和理论机器学习感兴趣的研究人员。
Sep, 2023
通过引入条件互信息(CMI)和归一化条件互信息(NCMI)的概念,以测量分类深度神经网络(DNN)在 DNN 的输出概率分布空间中的聚集和分离性能,其中 CMI 和 CMI 与 NCMI 之间的比率分别表示 DNN 的类内聚集和类间分离。通过使用 NCMI 来评估在文献中在 ImageNet 上预训练的流行 DNNs,在 ImageNet 验证数据集上的验证准确率与其 NCMI 值或多或少成反比的关系得出。基于这一观察,还对标准深度学习(DL)框架进行了修改,以在 NCMI 约束条件下最小化标准交叉熵函数,从而得到了 CMI 约束深度学习(CMIC-DL)。提出了一种新颖的交替学习算法来解决这种约束优化问题。大量实验结果显示,在 CMIC-DL 中训练的 DNN 在准确性和对抗性攻击的鲁棒性方面,优于标准 DL 和文献中其他损失函数训练的最先进模型。此外,还提倡通过 CMI 和 NCMI 的演变来可视化学习过程。
研究使用超样本来计算条件互信息并提出新的紧密边界模型,应用于 Langevin 动力学算法以获得更紧密的假设测试边界。
Apr, 2020
通过切片参数空间,我们针对机器学习算法提出新的信息理论泛化界限,证明切片可以提高泛化,并通过压缩模型的失真来收紧泛化界限,从而实现对神经网络的信息理论泛化界限的计算。
Jun, 2024
利用信息论推导出监督学习算法的泛化误差的信息熵上界,能够更全面地考虑损失函数的条件,并且在应用于嘈杂和迭代算法时能够给出比现有结果更紧密的泛化误差表征。
Jan, 2019
该论文介绍了一种将锁链法和互信息法结合起来得到算法相关和利用假设间的相关性的泛化界限的技术,并提供了一个实例,其中我们的界限显著优于锁链和互信息界限;作为推论,当学习算法从高概率的小假设子集中选择其输出时,紧缩了杜德利不等式。
Jun, 2018