深度卷积神经网络的泛化和优化性能理解

ICMLMay, 2018

深度卷积神经网络的泛化和优化性能理解

Understanding Generalization and Optimization Performance of Deep CNNs

Pan Zhou, Jiashi Feng

TL;DR本文理论分析卷积神经网络（CNN）的泛化性能、梯度下降训练算法的优化保证，证明了 CNN 的泛化误差由自由度和体系结构参数决定，并证明了梯度下降算法的近似稳定点是人口风险的近似稳定点，保证了 CNN 的良好泛化性能。

Abstract

This work aims to provide understandings on the remarkable success of deep convolutional neural networks (CNNs) by theoretically analyzing their generalization performance and establishing →

convolutional neural networks generalization performance optimization guarantees gradient descent architecture parameters

发现论文，激发创造

深度卷积神经网络的泛化界

本文基于 CIFAR-10 数据集的实验结果，提出卷积神经网络泛化误差的边界，包含训练损失、参数数量、损失函数的 Lipschitz 常数和权重与初始值的距离，且不受输入像素数和隐藏特征图的高度与宽度限制，最后与具体的实验结果进行对比。

May, 2019

深度网络中的泛化（IIIb 理论）

该论文研究了深度神经网络中过拟合的问题，证明了使用特定的损失函数时神经网络的收敛性及性能，提出了一种实用的判断不同零最小化点泛化性能的方法。

Jun, 2018

深度学习的信息论视角

通过理论分析，文章探讨了深度神经网络的泛化能力与网络深度之间的关系，并且指出卷积层等具有信息损失的深层结构可以提高整个网络的泛化性能。但是随着网络深度的增加，拟合数据的信息损失也会增大，也就是网络深度与训练误差之间有一定的条件关系。此外，文章还表明深度神经网络具有一定的稳定性，随着网络深度的增加，样本复杂度会降低。

Apr, 2018

深度网络中的理论问题：逼近、优化和泛化

简述：对深度学习的理论研究逐渐深入，从表示能力到优化、从梯度下降的泛化性质到固有隐藏复杂性的到达方式，已经有了一些解释；通过在分类任务中使用经典的均匀收敛结果，我们证明了在每个层的权重矩阵上施加单位范数约束下最小化替代指数型损失函数的有效性，从而解决了与深度网络泛化性能相关的一些谜团。

Aug, 2019

深度神经网络的更紧密的泛化界限：卷积神经网络、ResNet 等

我们通过引入一种新的神经网络族的 Lipschitz 属性的表征，建立了一种基于边际的数据相关的广泛深度神经网络泛化误差界限，将其与深度、宽度以及网络的雅可比矩阵联系起来。和现有的结果相比，我们实现了明显更紧的泛化下界，并且还表明，对于损失有界的情况，可以进一步改善泛化下界。除了一般的前馈深度神经网络外，我们的结果可以应用于推导流行的体系结构，包括卷积神经网络和残差网络。在实现与上一项艺术相同的泛化误差的同时，我们的误差允许选择更大的权重矩阵参数空间，从而为神经网络提供更强的表达能力。其中还提供了数值评估来支持我们的理论。

Jun, 2018

学习超参数化深度 ReLU 网络的梯度下降泛化误差界

通过算法依赖的综合误差界推导，论文解释了过度参数化的深度神经网络在合适的随机初始化下，使用梯度下降法可以获得任意小的泛化误差。

Feb, 2019

深度神经网络的信息论泛化界

深度神经网络在实际应用中表现出卓越的泛化能力，本研究旨在通过信息理论的泛化界限来捕捉深度对于监督学习的影响和益处。通过从网络内部表示的训练和测试分布的 Kullback-Leibler（KL）散度或 1-Wasserstein 距离导出了两个层次性的泛化误差界限。KL 散度界限随着层索引的增加而收缩，而 Wasserstein 界限暗示了存在一个层作为泛化漏斗，它达到了最小的 1-Wasserstein 距离。在具有线性 DNN 的二元高斯分类设置下，推导出了两个界限的解析表达式。通过分析三个正则化 DNN 模型（Dropout，DropConnect 和高斯噪声注入）的连续层之间的强数据处理不等式（SDPI）系数，量化了相关信息度量在网络深入时的收缩情况。这使得我们的泛化界限能够捕捉与网络架构参数相关的收缩情况。将结果特化为具有有限参数空间和 Gibbs 算法的 DNNs 表明，在这些示例中，更深而较窄的网络架构具有更好的泛化能力，尽管这个观点的广泛适用性仍然有待讨论。

Apr, 2024

学习一层卷积神经网络的样本复杂度

我们研究了使用不重叠过滤器的一层卷积神经网络的样本复杂度，并提出了一种称为近似梯度下降的新算法来训练 CNN，该算法在随机初始化时具有地面真值参数的线性收敛性，并且适用于常规的激活函数，例如 ReLU，Leaky ReLU，Sigmod 和 Softplus 等。我们的样本复杂度超过现有结果，并匹配了具有线性激活函数的一层 CNNs 的信息论下界，表明我们的样本复杂度是紧致的。

Nov, 2019

两层神经网络和随机特征模型在梯度下降动态下优化和泛化属性的比较分析

本研究对二层神经网络模型的梯度下降动态进行了较全面的分析，并考虑了在更新两个层的参数时，一般的初始化方案以及网络宽度和训练数据大小的一般方案。在过度参数化的情况下，梯度下降动态可以快速地达到零训练损失，无论标签的质量如何。此外，证明了神经网络模型所表示的函数始终与核方法的函数保持一致。对于网络宽度和训练数据大小的一般值，建立了适当的再生核 Hilbert 空间的目标函数的尖锐估计。

Apr, 2019

广泛和深度神经网络的随机梯度下降的泛化界限

研究深度神经网络的训练和泛化，在过度参数化的条件下，通过神经切向随机特征模型 (NTRF) 来限制泛化误差，并建立了神经切向内核 (NTK) 的联系。

May, 2019