深度卷积神经网络的泛化界
我们通过引入一种新的神经网络族的 Lipschitz 属性的表征,建立了一种基于边际的数据相关的广泛深度神经网络泛化误差界限,将其与深度、宽度以及网络的雅可比矩阵联系起来。和现有的结果相比,我们实现了明显更紧的泛化下界,并且还表明,对于损失有界的情况,可以进一步改善泛化下界。除了一般的前馈深度神经网络外,我们的结果可以应用于推导流行的体系结构,包括卷积神经网络和残差网络。在实现与上一项艺术相同的泛化误差的同时,我们的误差允许选择更大的权重矩阵参数空间,从而为神经网络提供更强的表达能力。其中还提供了数值评估来支持我们的理论。
Jun, 2018
深度神经网络在实际应用中表现出卓越的泛化能力,本研究旨在通过信息理论的泛化界限来捕捉深度对于监督学习的影响和益处。通过从网络内部表示的训练和测试分布的 Kullback-Leibler(KL)散度或 1-Wasserstein 距离导出了两个层次性的泛化误差界限。KL 散度界限随着层索引的增加而收缩,而 Wasserstein 界限暗示了存在一个层作为泛化漏斗,它达到了最小的 1-Wasserstein 距离。在具有线性 DNN 的二元高斯分类设置下,推导出了两个界限的解析表达式。通过分析三个正则化 DNN 模型(Dropout,DropConnect 和高斯噪声注入)的连续层之间的强数据处理不等式(SDPI)系数,量化了相关信息度量在网络深入时的收缩情况。这使得我们的泛化界限能够捕捉与网络架构参数相关的收缩情况。将结果特化为具有有限参数空间和 Gibbs 算法的 DNNs 表明,在这些示例中,更深而较窄的网络架构具有更好的泛化能力,尽管这个观点的广泛适用性仍然有待讨论。
Apr, 2024
本文理论分析卷积神经网络(CNN)的泛化性能、梯度下降训练算法的优化保证,证明了 CNN 的泛化误差由自由度和体系结构参数决定,并证明了梯度下降算法的近似稳定点是人口风险的近似稳定点,保证了 CNN 的良好泛化性能。
May, 2018
本文讨论卷积神经网络的稳定性,以及基于 Lipschitz 性质的特征提取和分类方法,计算了 Lipschitz 边界并将其值与其他方法进行了比较,验证了 Lipschitz 边界计算方法的优越性。
Jan, 2017
本文提出了利用 Lipschitz Bound Estimation 保证深度神经网络对抗攻击鲁棒性的有效方法,并通过图形分析支持 CNN 获得非平凡 Lipschitz constant 的困难。同时,采用 Toeplitz 矩阵将 CNN 转换为完全连接的网络,并运用实验证明了在特定数据分布中实际 Lipschitz constant 与获得紧密界定之间存在的 20-50 倍的差距。针对不同网络架构在 MNIST 和 CIFAR-10 上进行全面实验和比较分析。
Jul, 2022
研究深度神经网络的训练和泛化,在过度参数化的条件下,通过神经切向随机特征模型 (NTRF) 来限制泛化误差,并建立了神经切向内核 (NTK) 的联系。
May, 2019
该研究通过系统实验和理论构建发现,传统方法很难解释为什么大型神经网络的泛化性能良好,即使加入正则化仍然不会改变随机标记训练数据的状态,因为只要参数数量超过数据点数量,简单的两层神经网络就能实现完美的有限样本表达能力。
Nov, 2016