神经网络的切片互信息广义界限
本文提供了通用的、数据无关的 Mutual Information 估计方法,其中包括新的下限估计器。通过实验测试我们的方法在高维问题中具有强大的表现,特别是在变量之间存在非线性关系时。
May, 2019
利用信息论推导出监督学习算法的泛化误差的信息熵上界,能够更全面地考虑损失函数的条件,并且在应用于嘈杂和迭代算法时能够给出比现有结果更紧密的泛化误差表征。
Jan, 2019
该论文提出了一个信息理论框架来研究机器学习算法的泛化性能,利用条件互信息量化算法输出和训练数据之间的关系,并提出基于 VC 维、压缩方案、差分隐私等方法来获得有界的条件互信息,从而得出泛化的各种形式。
Jan, 2020
深度神经网络在实际应用中表现出卓越的泛化能力,本研究旨在通过信息理论的泛化界限来捕捉深度对于监督学习的影响和益处。通过从网络内部表示的训练和测试分布的 Kullback-Leibler(KL)散度或 1-Wasserstein 距离导出了两个层次性的泛化误差界限。KL 散度界限随着层索引的增加而收缩,而 Wasserstein 界限暗示了存在一个层作为泛化漏斗,它达到了最小的 1-Wasserstein 距离。在具有线性 DNN 的二元高斯分类设置下,推导出了两个界限的解析表达式。通过分析三个正则化 DNN 模型(Dropout,DropConnect 和高斯噪声注入)的连续层之间的强数据处理不等式(SDPI)系数,量化了相关信息度量在网络深入时的收缩情况。这使得我们的泛化界限能够捕捉与网络架构参数相关的收缩情况。将结果特化为具有有限参数空间和 Gibbs 算法的 DNNs 表明,在这些示例中,更深而较窄的网络架构具有更好的泛化能力,尽管这个观点的广泛适用性仍然有待讨论。
Apr, 2024
本研究提出了一种基于信息理论的泛化误差上界方法,用以控制模型的输入输出互信息,进而指导在数据适配和泛化之间寻找平衡点。在此基础上,我们探索了一些方法,包括利用相对熵或随机噪声来正则化 ERM 算法等。这些方法扩展和改进了 Russo 和 Zou 的最近工作。
May, 2017
本文探讨了利用输入和最终层表示之间的互信息来估算深度神经网络广义误差,并使用输入压缩边界将互信息和广义误差联系起来,证明其在许多情况下表现优异,有助于消除试错的过程。
Jul, 2022
本文提出了一种名为 Sliced MI(SMI)的关联系数测量方法,它是高维互信息的一种替代,通过对一维随机投影之间的互信息项求平均来定义,并且可以应用于特征提取。实验结果表明,与传统的互信息相比,SMI 在高维推断中具有潜在的优势。
Oct, 2021
该论文介绍了一种将锁链法和互信息法结合起来得到算法相关和利用假设间的相关性的泛化界限的技术,并提供了一个实例,其中我们的界限显著优于锁链和互信息界限;作为推论,当学习算法从高概率的小假设子集中选择其输出时,紧缩了杜德利不等式。
Jun, 2018