深度学习的信息论视角

Apr, 2018

An Information-Theoretic View for Deep Learning

Jingwei Zhang, Tongliang Liu, Dacheng Tao

TL;DR通过理论分析，文章探讨了深度神经网络的泛化能力与网络深度之间的关系，并且指出卷积层等具有信息损失的深层结构可以提高整个网络的泛化性能。但是随着网络深度的增加，拟合数据的信息损失也会增大，也就是网络深度与训练误差之间有一定的条件关系。此外，文章还表明深度神经网络具有一定的稳定性，随着网络深度的增加，样本复杂度会降低。

Abstract

deep learning has transformed computer vision, natural language processing, and speech recognition\cite{badrinarayanan2017segnet, dong2016image, ren2017faster, ji20133d}. However, two critical questions remain obscure: (1) why do deep →

deep learning generalization error convolutional layers pooling layers neural networks

发现论文，激发创造

深度神经网络的信息论泛化界

深度神经网络在实际应用中表现出卓越的泛化能力，本研究旨在通过信息理论的泛化界限来捕捉深度对于监督学习的影响和益处。通过从网络内部表示的训练和测试分布的 Kullback-Leibler（KL）散度或 1-Wasserstein 距离导出了两个层次性的泛化误差界限。KL 散度界限随着层索引的增加而收缩，而 Wasserstein 界限暗示了存在一个层作为泛化漏斗，它达到了最小的 1-Wasserstein 距离。在具有线性 DNN 的二元高斯分类设置下，推导出了两个界限的解析表达式。通过分析三个正则化 DNN 模型（Dropout，DropConnect 和高斯噪声注入）的连续层之间的强数据处理不等式（SDPI）系数，量化了相关信息度量在网络深入时的收缩情况。这使得我们的泛化界限能够捕捉与网络架构参数相关的收缩情况。将结果特化为具有有限参数空间和 Gibbs 算法的 DNNs 表明，在这些示例中，更深而较窄的网络架构具有更好的泛化能力，尽管这个观点的广泛适用性仍然有待讨论。

Apr, 2024

重新思考泛化对于了解深度学习至关重要

该研究通过系统实验和理论构建发现，传统方法很难解释为什么大型神经网络的泛化性能良好，即使加入正则化仍然不会改变随机标记训练数据的状态，因为只要参数数量超过数据点数量，简单的两层神经网络就能实现完美的有限样本表达能力。

Nov, 2016

深度网络中的理论问题：逼近、优化和泛化

简述：对深度学习的理论研究逐渐深入，从表示能力到优化、从梯度下降的泛化性质到固有隐藏复杂性的到达方式，已经有了一些解释；通过在分类任务中使用经典的均匀收敛结果，我们证明了在每个层的权重矩阵上施加单位范数约束下最小化替代指数型损失函数的有效性，从而解决了与深度网络泛化性能相关的一些谜团。

Aug, 2019

深度网络中的泛化（IIIb 理论）

该论文研究了深度神经网络中过拟合的问题，证明了使用特定的损失函数时神经网络的收敛性及性能，提出了一种实用的判断不同零最小化点泛化性能的方法。

Jun, 2018

深度卷积神经网络的泛化和优化性能理解

本文理论分析卷积神经网络（CNN）的泛化性能、梯度下降训练算法的优化保证，证明了 CNN 的泛化误差由自由度和体系结构参数决定，并证明了梯度下降算法的近似稳定点是人口风险的近似稳定点，保证了 CNN 的良好泛化性能。

May, 2018

监督分类的信息论视角下的误差边界

采用信息理论的视角探索深度神经网络在有监督分类中的理论基础，分析了拟合误差、模型风险和泛化误差上界的相关概念及其对样本数据质量和正则化超参数设置的指导作用，研究发现过度参数化、非凸优化和平坦极小值在深度神经网络中的影响，并通过实证验证证实了理论发现与实际风险之间显著的正相关关系。

Jun, 2024

深入还是扩展：从 Sobolev 损失的最优泛化误差角度出发

通过比较深度神经网络和宽度神经网络在 Sobolev 损失下的最佳泛化误差，研究了神经网络架构的构建问题，发现样本点数量、神经网络参数和损失函数的正则性等因素都会对神经网络架构产生显著影响，并将这一理论应用于解决偏微分方程的深度 Ritz 和受物理约束的神经网络（PINN）方法，从而指导神经网络的设计。

Jan, 2024

浅层学习作为深度学习的替代方案

拟合深度学习基础理论的神经网络架构 —— 卷积层可以达到与深度卷积神经网络类似的性能，并有一个可识别其普遍行为的幂律现象。

Nov, 2022

论神经网络所学习的信息：与记忆和泛化的联系

通过信息论分析深度学习及神经网络，研究在训练过程中神经网络获取的信息，提出了限制权值中标签噪声信息的学习算法，并提出了样本信息度量概念，探究了神经网络在非典型、模棱两可或属于代表性较弱群体的情况下的行为，导出了非平凡的泛化表现界限，并通过知识蒸馏研究，证明了数据和标签复杂度在泛化中的重要作用。该论文深入研究了神经网络的泛化机制，有益于更深层次地理解此领域的相关知识。

Jun, 2023

深度卷积神经网络的泛化界

本文基于 CIFAR-10 数据集的实验结果，提出卷积神经网络泛化误差的边界，包含训练损失、参数数量、损失函数的 Lipschitz 常数和权重与初始值的距离，且不受输入像素数和隐藏特征图的高度与宽度限制，最后与具体的实验结果进行对比。

May, 2019