监督分类的信息论视角下的误差边界

Jun, 2024

监督分类的信息论视角下的误差边界

Error Bounds of Supervised Classification from Information-Theoretic Perspective

Binchuan Qi, Wei Gong, Li Li

TL;DR采用信息理论的视角探索深度神经网络在有监督分类中的理论基础，分析了拟合误差、模型风险和泛化误差上界的相关概念及其对样本数据质量和正则化超参数设置的指导作用，研究发现过度参数化、非凸优化和平坦极小值在深度神经网络中的影响，并通过实证验证证实了理论发现与实际风险之间显著的正相关关系。

Abstract

There remains a list of unanswered research questions on deep learning (DL), including the remarkable generalization power of overparametrized neural networks, the efficient optimization performance despite the non-convexity, and the mechanisms behind flat minima in generalization. In

deep learning overparametrized neural networks information-theoretic perspective generalization error expected risk

发现论文，激发创造

深度神经网络的信息论泛化界

深度神经网络在实际应用中表现出卓越的泛化能力，本研究旨在通过信息理论的泛化界限来捕捉深度对于监督学习的影响和益处。通过从网络内部表示的训练和测试分布的 Kullback-Leibler（KL）散度或 1-Wasserstein 距离导出了两个层次性的泛化误差界限。KL 散度界限随着层索引的增加而收缩，而 Wasserstein 界限暗示了存在一个层作为泛化漏斗，它达到了最小的 1-Wasserstein 距离。在具有线性 DNN 的二元高斯分类设置下，推导出了两个界限的解析表达式。通过分析三个正则化 DNN 模型（Dropout，DropConnect 和高斯噪声注入）的连续层之间的强数据处理不等式（SDPI）系数，量化了相关信息度量在网络深入时的收缩情况。这使得我们的泛化界限能够捕捉与网络架构参数相关的收缩情况。将结果特化为具有有限参数空间和 Gibbs 算法的 DNNs 表明，在这些示例中，更深而较窄的网络架构具有更好的泛化能力，尽管这个观点的广泛适用性仍然有待讨论。

Apr, 2024

类别通用化误差：一种信息理论分析

现有的监督学习泛化理论通常采用整体方法，并提供整个数据分布的期望泛化界限，这暗示了模型对所有类别的泛化情况相似。然而，在实践中，不同类别之间的泛化性能存在显著差异，这不能被现有的泛化界限所捕捉。本文通过在理论上研究类别泛化误差来解决这个问题，该误差量化了每个个体类别的泛化性能。我们使用 KL 散度推导出了一种新的信息论界限来度量类别泛化误差，并进一步利用条件互信息 (CMI) 获得了几个更紧的界限，这在实践中更容易估计。我们在不同的神经网络中经验证实了我们提出的界限能准确捕捉复杂的类别泛化误差行为。此外，我们还展示了本文所开发的理论工具能够应用在其他多个领域。

Jan, 2024

学习超参数化深度 ReLU 网络的梯度下降泛化误差界

通过算法依赖的综合误差界推导，论文解释了过度参数化的深度神经网络在合适的随机初始化下，使用梯度下降法可以获得任意小的泛化误差。

Feb, 2019

深度网络中的泛化（IIIb 理论）

该论文研究了深度神经网络中过拟合的问题，证明了使用特定的损失函数时神经网络的收敛性及性能，提出了一种实用的判断不同零最小化点泛化性能的方法。

Jun, 2018

浅层神经网络超参数化的监督学习基本极限

对使用两层神经网络进行信息理论分析的研究，研究了限制数据和模型的情况下神经网络的性能极限，结果表明这个性能极限取决于训练数据的数量、输入维度和隐藏单元的数量

Jul, 2023

关于使用随机梯度下降训练的模型的泛化：信息论界限和含义

本文基于 Neu et al. (2021) 的最新研究，在信息论方面提出了用于衡量机器学习模型的泛化误差的新上界。通过应用这些上界，分析了线性和 ReLU 网络的泛化行为，并得出了关于 SGD 训练的洞见以及一种新的简单的正则化方案。实验结果表明此正则方案的表现与当前最先进的方案相媲美。

Oct, 2021

深度学习的泛化界限

本研究提出了关于深度学习的泛化误差的准则，介绍了一种基于边际似然的 PAC-Bayesian Bound 方法来预测泛化误差，并进行了广泛实证分析以评估该方法的效果和特性。

Dec, 2020

一个基于信息理论的监督学习框架

本文提出了一种新颖的信息论框架，用其自己的遗憾和样本复杂度分析机器学习的数据需求，并用该框架研究了由具有 ReLU 激活单元的深度神经网络生成的数据的样本复杂度，并在权重的特定先验分布下建立了同时独立于宽度和线性深度的样本复杂度界限。

Mar, 2022

深度学习的信息论视角

通过理论分析，文章探讨了深度神经网络的泛化能力与网络深度之间的关系，并且指出卷积层等具有信息损失的深层结构可以提高整个网络的泛化性能。但是随着网络深度的增加，拟合数据的信息损失也会增大，也就是网络深度与训练误差之间有一定的条件关系。此外，文章还表明深度神经网络具有一定的稳定性，随着网络深度的增加，样本复杂度会降低。

Apr, 2018

稀疏深度神经网络的统计学习

基于经验风险最小化与 l_1 正则化的深度神经网络估计器，我们推导出其在回归和分类（包括多类别）中的过量风险的一般界限，并证明它在各种函数类的整个范围内几乎达到最小值（取对数因子）。

Nov, 2023