学习一层卷积神经网络的样本复杂度

Nov, 2019

学习一层卷积神经网络的样本复杂度

Tight Sample Complexity of Learning One-hidden-layer Convolutional Neural Networks

Yuan Cao, Quanquan Gu

TL;DR我们研究了使用不重叠过滤器的一层卷积神经网络的样本复杂度，并提出了一种称为近似梯度下降的新算法来训练 CNN，该算法在随机初始化时具有地面真值参数的线性收敛性，并且适用于常规的激活函数，例如 ReLU，Leaky ReLU，Sigmod 和 Softplus 等。我们的样本复杂度超过现有结果，并匹配了具有线性激活函数的一层 CNNs 的信息论下界，表明我们的样本复杂度是紧致的。

Abstract

We study the sample complexity of learning one-hidden-layer convolutional neural networks (CNNs) with non-overlapping filters. We propose a novel algorithm called →

sample complexity convolutional neural networks approximate gradient descent activation functions sample complexity

发现论文，激发创造

使用近似梯度下降学习图神经网络

该论文提供了第一个针对具有一个隐层节点信息卷积的图神经网络（GNN）的可证明有效的学习算法，并开发了一种综合性框架来设计和分析 GNN 训练算法的收敛性。提出的算法适用于各种激活函数，包括 ReLU，Leaky ReLU，Sigmoid，Softplus 和 Swish，并对样本复杂度进行了特征化。数值实验进一步验证了理论分析。

Dec, 2020

关于卷积神经网络学习收敛速度的研究

卷积神经网络的近似和学习能力的研究，证明了满足权重约束的卷积神经网络的新逼近界限，并给出了覆盖神经网络的新分析，从而得到了更好的收敛界限，并利用这两个结果在许多学习问题中推导了基于卷积神经网络的估计器的收敛速度，对于学习平滑函数的非参数回归设置和二元分类中的卷积神经网络分类器的 Hinge 损失和 Logistic 损失，得到了最优的收敛速度。

Mar, 2024

使用多核学习非重叠的卷积神经网络

本研究考虑具有多个内核的不重叠卷积神经网络的参数恢复，当输入服从高斯分布且样本量足够大时，对于大多数流行的激活函数，如 ReLU，Leaky ReLU，Squared ReLU，Sigmoid 和 Tanh，我们展示了该 CNN 的平方损失在全局最优附近的吸引盆中是局部强凸的，所需样本复杂度与输入维度成比例且多项式内核数量和参数的条件数，同时我们还展示了张量方法能够将参数初始化为局部强凸的区域，因此，对于大多数光滑的激活函数，张量初始化后的梯度下降保证在输入维度、精度对数和其他因素上是多项式数量级的时间内收敛到全局最优解。据我们所知，这是第一份提供具有多个内核的 CNN 的恢复保证的工作，其样本复杂度和计算复杂度都是多项式的。

Nov, 2017

非线性卷积网络的高效准确近似

本文旨在加速深度卷积神经网络的测试时间计算，通过最小化非线性响应的重建误差，附加一种低秩约束，以帮助降低过滤器的复杂度，该算法可以减小多层输入的叠加误差并提高模型精度，可将 ImageNet 的训练速度提升 4 倍，精度提高 4.7%。

Nov, 2014

ResNet 类型卷积神经网络的近似与非参数估计

本文证明了一种 ResNet 型 CNN 模型在具有 block-sparse 结构的情况下可以在 Barron 和 H"older 类中实现 minimax 优化差错率，并且该理论具有普适性。

Mar, 2019

卷积滤波器何时易于学习？

通过随机梯度下降算法和 ReLU 激活函数，我们分析了卷积滤波器的收敛性。我们的研究不依赖于任何特定形式的输入分布，证明了基于梯度的算法在多项式时间内可以学习卷积滤波器，且收敛速度取决于输入分布的平滑度和卷积核的密度。此理论证明了深度神经网络中的两阶段学习率策略并提出了卷积滤波器的新的较弱恢复保证。

Sep, 2017

具有高斯输入的 ConvNet 的全局最优梯度下降

在神经网络模型中，使用 Gradient descent 算法时，当输入分布满足高斯分布时，使用 Convolutional neural network 和 ReLU activations 的神经网络模型可以在多项式时间内收敛于全局最优点。但是，我们证明了这种情况下学习是 NP 完全问题。

Feb, 2017

关于卷积神经网络 Lipschitz 界的研究

本文介绍一个可以估算 CNN 网络的 Lipschitz bound 的线性程序，并使用其测量特性分离的非线性判别分析。

Aug, 2018

使用近似张量运算加速神经网络训练

通过对张量运算（矩阵乘法和卷积）应用基于样本的近似，提出了一种用于深度神经网络加速训练的新技术。应用到 MLP 和 CNN 网络的 MNIST，CIFAR-10 和 ImageNet 数据集的训练实验结果表明，该方法可以大幅度减少计算量和通讯量，并以不会对最终测试准确率产生可感知影响的方式提升训练速度。

May, 2018

深度卷积神经网络的泛化和优化性能理解

本文理论分析卷积神经网络（CNN）的泛化性能、梯度下降训练算法的优化保证，证明了 CNN 的泛化误差由自由度和体系结构参数决定，并证明了梯度下降算法的近似稳定点是人口风险的近似稳定点，保证了 CNN 的良好泛化性能。

May, 2018