深度卷积神经网络的泛化界

ICLRMay, 2019

Generalization bounds for deep convolutional neural networks

Philip M. Long, Hanie Sedghi

TL;DR本文基于 CIFAR-10 数据集的实验结果，提出卷积神经网络泛化误差的边界，包含训练损失、参数数量、损失函数的 Lipschitz 常数和权重与初始值的距离，且不受输入像素数和隐藏特征图的高度与宽度限制，最后与具体的实验结果进行对比。

Abstract

We prove bounds on the generalization error of convolutional networks. The bounds are in terms of the training loss, the number of paramet

convolutional networks generalization error training loss lipschitz constant hyperparameters

发现论文，激发创造

深度神经网络的更紧密的泛化界限：卷积神经网络、ResNet 等

我们通过引入一种新的神经网络族的 Lipschitz 属性的表征，建立了一种基于边际的数据相关的广泛深度神经网络泛化误差界限，将其与深度、宽度以及网络的雅可比矩阵联系起来。和现有的结果相比，我们实现了明显更紧的泛化下界，并且还表明，对于损失有界的情况，可以进一步改善泛化下界。除了一般的前馈深度神经网络外，我们的结果可以应用于推导流行的体系结构，包括卷积神经网络和残差网络。在实现与上一项艺术相同的泛化误差的同时，我们的误差允许选择更大的权重矩阵参数空间，从而为神经网络提供更强的表达能力。其中还提供了数值评估来支持我们的理论。

Jun, 2018

深度神经网络的信息论泛化界

深度神经网络在实际应用中表现出卓越的泛化能力，本研究旨在通过信息理论的泛化界限来捕捉深度对于监督学习的影响和益处。通过从网络内部表示的训练和测试分布的 Kullback-Leibler（KL）散度或 1-Wasserstein 距离导出了两个层次性的泛化误差界限。KL 散度界限随着层索引的增加而收缩，而 Wasserstein 界限暗示了存在一个层作为泛化漏斗，它达到了最小的 1-Wasserstein 距离。在具有线性 DNN 的二元高斯分类设置下，推导出了两个界限的解析表达式。通过分析三个正则化 DNN 模型（Dropout，DropConnect 和高斯噪声注入）的连续层之间的强数据处理不等式（SDPI）系数，量化了相关信息度量在网络深入时的收缩情况。这使得我们的泛化界限能够捕捉与网络架构参数相关的收缩情况。将结果特化为具有有限参数空间和 Gibbs 算法的 DNNs 表明，在这些示例中，更深而较窄的网络架构具有更好的泛化能力，尽管这个观点的广泛适用性仍然有待讨论。

Apr, 2024

关于卷积神经网络 Lipschitz 界的研究

本文介绍一个可以估算 CNN 网络的 Lipschitz bound 的线性程序，并使用其测量特性分离的非线性判别分析。

Aug, 2018

深度卷积神经网络的泛化和优化性能理解

本文理论分析卷积神经网络（CNN）的泛化性能、梯度下降训练算法的优化保证，证明了 CNN 的泛化误差由自由度和体系结构参数决定，并证明了梯度下降算法的近似稳定点是人口风险的近似稳定点，保证了 CNN 的良好泛化性能。

May, 2018

学习超参数化深度 ReLU 网络的梯度下降泛化误差界

通过算法依赖的综合误差界推导，论文解释了过度参数化的深度神经网络在合适的随机初始化下，使用梯度下降法可以获得任意小的泛化误差。

Feb, 2019

深度卷积网络的 Lipschitz 属性

本文讨论卷积神经网络的稳定性，以及基于 Lipschitz 性质的特征提取和分类方法，计算了 Lipschitz 边界并将其值与其他方法进行了比较，验证了 Lipschitz 边界计算方法的优越性。

Jan, 2017

神经网络的 Lipschitz 界分析

本文提出了利用 Lipschitz Bound Estimation 保证深度神经网络对抗攻击鲁棒性的有效方法，并通过图形分析支持 CNN 获得非平凡 Lipschitz constant 的困难。同时，采用 Toeplitz 矩阵将 CNN 转换为完全连接的网络，并运用实验证明了在特定数据分布中实际 Lipschitz constant 与获得紧密界定之间存在的 20-50 倍的差距。针对不同网络架构在 MNIST 和 CIFAR-10 上进行全面实验和比较分析。

Jul, 2022

广泛和深度神经网络的随机梯度下降的泛化界限

研究深度神经网络的训练和泛化，在过度参数化的条件下，通过神经切向随机特征模型 (NTRF) 来限制泛化误差，并建立了神经切向内核 (NTK) 的联系。

May, 2019

卷积神经网络的 PAC-Bayesian 边界

本文将 PAC-Bayesian 框架应用在卷积神经网络中，以分析深度神经网络的泛化误差问题，该方法之前已在全连接神经网络中进行验证。

Dec, 2017

重新思考泛化对于了解深度学习至关重要

该研究通过系统实验和理论构建发现，传统方法很难解释为什么大型神经网络的泛化性能良好，即使加入正则化仍然不会改变随机标记训练数据的状态，因为只要参数数量超过数据点数量，简单的两层神经网络就能实现完美的有限样本表达能力。

Nov, 2016