DNN 的概率表示：连接互信息和泛化

ICMLJun, 2021

DNN 的概率表示：连接互信息和泛化

A Probabilistic Representation of DNNs: Bridging Mutual Information and Generalization

Xinjie Lan, Kenneth Barner

TL;DR本文提出了一种概率表示方法，用于准确估计深度神经网络的互信息，并利用估计器验证了信息理论对泛化的解释，得出了比现有方法更紧密的泛化界限。

Abstract

Recently, mutual information (MI) has attracted attention in bounding the generalization error of deep neural networks (DNNs). However, it

mutual information deep neural networks generalization error information theoretic explanation probabilistic representation

发现论文，激发创造

神经网络的切片互信息广义界限

通过切片参数空间，我们针对机器学习算法提出新的信息理论泛化界限，证明切片可以提高泛化，并通过压缩模型的失真来收紧泛化界限，从而实现对神经网络的信息理论泛化界限的计算。

Jun, 2024

深度学习可解释性的鲁棒互信息估计器

本文提出了基于高斯混合模型的互信息估计算法 GMM-MI，经验证其在深度学习模型的可解释性研究中表现良好，可用于评估自编码的潜在空间中变量的分离度和与物理量的相关性分布。

Oct, 2022

深度神经网络的信息论泛化界

深度神经网络在实际应用中表现出卓越的泛化能力，本研究旨在通过信息理论的泛化界限来捕捉深度对于监督学习的影响和益处。通过从网络内部表示的训练和测试分布的 Kullback-Leibler（KL）散度或 1-Wasserstein 距离导出了两个层次性的泛化误差界限。KL 散度界限随着层索引的增加而收缩，而 Wasserstein 界限暗示了存在一个层作为泛化漏斗，它达到了最小的 1-Wasserstein 距离。在具有线性 DNN 的二元高斯分类设置下，推导出了两个界限的解析表达式。通过分析三个正则化 DNN 模型（Dropout，DropConnect 和高斯噪声注入）的连续层之间的强数据处理不等式（SDPI）系数，量化了相关信息度量在网络深入时的收缩情况。这使得我们的泛化界限能够捕捉与网络架构参数相关的收缩情况。将结果特化为具有有限参数空间和 Gibbs 算法的 DNNs 表明，在这些示例中，更深而较窄的网络架构具有更好的泛化能力，尽管这个观点的广泛适用性仍然有待讨论。

Apr, 2024

利用输入压缩来界定广义误差：无限宽度神经网络的实证研究

本文探讨了利用输入和最终层表示之间的互信息来估算深度神经网络广义误差，并使用输入压缩边界将互信息和广义误差联系起来，证明其在许多情况下表现优异，有助于消除试错的过程。

Jul, 2022

互信息的变分上下界

本文提供了通用的、数据无关的 Mutual Information 估计方法，其中包括新的下限估计器。通过实验测试我们的方法在高维问题中具有强大的表现，特别是在变量之间存在非线性关系时。

May, 2019

通过互信息反向传播学习无偏表示

利用信息论的有关发现，我们提出了一种新的端到端优化策略，该策略同时估计和最小化学习表示和数据属性之间的互信息，通过这种策略，我们的模型在标准基准测试中表现出与最先进的方法相当或优越的分类性能，此方法可应用于问题的 “算法公平性”，并得到了竞争性的结果。

Mar, 2020

深度神经网络模型中的熵和互信息

本文介绍了一类采用可计算的信息理论模型的深度学习模型，探讨了该模型从启发式的统计物理方法中导出熵和互信息的方法，在该方法的基础上，设计了一种实验框架用于对生成模型进行训练，并对该模型进行验证，同时研究了本模型在学习过程中的行为，得出结论：在所提出的情况下，压缩和泛化之间的关系仍然不明确。

May, 2018

基于神经网络的逐点依存关系估计方法

本文提出了两种方法（Probabilistic Classifier 和 Density-Ratio Fitting）来解决 MI 估计中存在的方差大的问题，这两种方法可以自然地获得点对点的依赖信息，为自监督学习和跨模态检索任务提供了有效方法。

Jun, 2020

基于互信息的泛化误差界限的紧缩

利用信息论推导出监督学习算法的泛化误差的信息熵上界，能够更全面地考虑损失函数的条件，并且在应用于嘈杂和迭代算法时能够给出比现有结果更紧密的泛化误差表征。

Jan, 2019

通过条件互信息推理广义化问题

该论文提出了一个信息理论框架来研究机器学习算法的泛化性能，利用条件互信息量化算法输出和训练数据之间的关系，并提出基于 VC 维、压缩方案、差分隐私等方法来获得有界的条件互信息，从而得出泛化的各种形式。

Jan, 2020