深度神经网络的更紧密的泛化界限：卷积神经网络、ResNet 等

Jun, 2018

深度神经网络的更紧密的泛化界限：卷积神经网络、ResNet 等

On Tighter Generalization Bound for Deep Neural Networks: CNNs, ResNets, and Beyond

Xingguo Li, Junwei Lu, Zhaoran Wang, Jarvis Haupt, Tuo Zhao

TL;DR我们通过引入一种新的神经网络族的 Lipschitz 属性的表征，建立了一种基于边际的数据相关的广泛深度神经网络泛化误差界限，将其与深度、宽度以及网络的雅可比矩阵联系起来。和现有的结果相比，我们实现了明显更紧的泛化下界，并且还表明，对于损失有界的情况，可以进一步改善泛化下界。除了一般的前馈深度神经网络外，我们的结果可以应用于推导流行的体系结构，包括卷积神经网络和残差网络。在实现与上一项艺术相同的泛化误差的同时，我们的误差允许选择更大的权重矩阵参数空间，从而为神经网络提供更强的表达能力。其中还提供了数值评估来支持我们的理论。

Abstract

We establish a margin based data dependent generalization error bound for a general family of deep neural networks in terms of the depth and width, as well as the Jacobian of the networks. Through introducing a n

generalization error deep neural networks jacobians lipschitz properties expressive ability

发现论文，激发创造

深度卷积神经网络的泛化界

本文基于 CIFAR-10 数据集的实验结果，提出卷积神经网络泛化误差的边界，包含训练损失、参数数量、损失函数的 Lipschitz 常数和权重与初始值的距离，且不受输入像素数和隐藏特征图的高度与宽度限制，最后与具体的实验结果进行对比。

May, 2019

深度神经网络的信息论泛化界

深度神经网络在实际应用中表现出卓越的泛化能力，本研究旨在通过信息理论的泛化界限来捕捉深度对于监督学习的影响和益处。通过从网络内部表示的训练和测试分布的 Kullback-Leibler（KL）散度或 1-Wasserstein 距离导出了两个层次性的泛化误差界限。KL 散度界限随着层索引的增加而收缩，而 Wasserstein 界限暗示了存在一个层作为泛化漏斗，它达到了最小的 1-Wasserstein 距离。在具有线性 DNN 的二元高斯分类设置下，推导出了两个界限的解析表达式。通过分析三个正则化 DNN 模型（Dropout，DropConnect 和高斯噪声注入）的连续层之间的强数据处理不等式（SDPI）系数，量化了相关信息度量在网络深入时的收缩情况。这使得我们的泛化界限能够捕捉与网络架构参数相关的收缩情况。将结果特化为具有有限参数空间和 Gibbs 算法的 DNNs 表明，在这些示例中，更深而较窄的网络架构具有更好的泛化能力，尽管这个观点的广泛适用性仍然有待讨论。

Apr, 2024

广泛和深度神经网络的随机梯度下降的泛化界限

研究深度神经网络的训练和泛化，在过度参数化的条件下，通过神经切向随机特征模型 (NTRF) 来限制泛化误差，并建立了神经切向内核 (NTK) 的联系。

May, 2019

基于边界的多类别泛化界限与几何复杂度

通过对深度神经网络的一种复杂性度量，即几何复杂性，进行研究，我们提出了一种新的上界推导出的泛化误差，该泛化误差与网络的几何复杂性的边际归一化相关，并适用于广泛的数据分布和模型类。同时，我们对 ResNet-18 模型在 CIFAR-10 和 CIFAR-100 数据集上进行实验证明该广义化界是准确的。

May, 2024

基于切空间敏感性的 ReLU 网络的优化相关泛化界

最近深度学习取得了一些极有前途的成果，尤其是在深度神经网络的泛化能力方面，然而相关文献中仍缺乏一种全面的理论来解释为什么过度参数化的模型能够在拟合训练数据的同时表现出良好的泛化能力。本文通过估计通过梯度下降从初始参数向量获得的网络集合的 Rademacher 复杂度，提出了对前馈 ReLU 网络的泛化误差进行 PAC 类型边界的方法。关键思想是限定网络梯度对优化轨迹上输入数据扰动的敏感性。所得到的边界不显式依赖于网络的深度。我们在 MNIST 和 CIFAR-10 数据集上进行了实验证实。

Oct, 2023

学习超参数化深度 ReLU 网络的梯度下降泛化误差界

通过算法依赖的综合误差界推导，论文解释了过度参数化的深度神经网络在合适的随机初始化下，使用梯度下降法可以获得任意小的泛化误差。

Feb, 2019

深度卷积神经网络的泛化和优化性能理解

本文理论分析卷积神经网络（CNN）的泛化性能、梯度下降训练算法的优化保证，证明了 CNN 的泛化误差由自由度和体系结构参数决定，并证明了梯度下降算法的近似稳定点是人口风险的近似稳定点，保证了 CNN 的良好泛化性能。

May, 2018

神经常微分方程和深度残差网络的泛化界

本文研究基于连续时间参数的 ODE 类模型及其泛化界限，并探讨其与深度残差网络的类比关系，说明权重矩阵之间的差异对于神经网络的泛化能力有何影响。

May, 2023

深度残差网络过参数化情况下的算法依赖性泛化界

通过分析过度参数化的深层残差网络，我们证明了梯度下降学习的网络类是整个神经网络函数类的一个子集，这个子集足够大以保证小的训练误差和测试误差，并且此类网络具有小的泛化差距，这提供了残差网络优于非残差网络的解释。

Oct, 2019

关于卷积神经网络 Lipschitz 界的研究

本文介绍一个可以估算 CNN 网络的 Lipschitz bound 的线性程序，并使用其测量特性分离的非线性判别分析。

Aug, 2018