神经网络的大小无关样本复杂度

Dec, 2017

Size-Independent Sample Complexity of Neural Networks

Noah Golowich, Alexander Rakhlin, Ohad Shamir

TL;DR研究神经网络学习的样本复杂度，提供了关于每层参数矩阵范数约束的 Rademacher 复杂度的新界限，改进了前人的成果，并使用一些新技术获得了网络深度的改进关系，且在一些额外假设的情况下，完全独立于网络大小 (深度和宽度)。

Abstract

We study the sample complexity of learning neural networks, by providing new bounds on their rademacher complexity assuming norm constrain

sample complexity neural networks rademacher complexity parameter matrix network depth

发现论文，激发创造

关于 ReLU 网络的样本复杂度的大小无关性研究

本文研究了从推广的角度学习 ReLU 神经网络的样本复杂性，并结合权重矩阵上的范数限制，给出了与网络规模无关的上界，其中 Frobenius norms 为主要研究方向。

Jun, 2023

通过 Lipschitz 增强评估深度神经网络的数据相关样本复杂度

通过考虑网络的额外数据相关属性，如隐藏层的范数和每层相对于之前所有层的雅可比矩阵的范数，我们获得了更紧的基于 Rademacher 复杂度的界限。在实践中，我们直接通过规范化网络的雅可比矩阵来改善测试性能。

May, 2019

线性预测器和神经网络的初始化相关样本复杂度

对于向量值线性预测器的样本复杂度和神经网络问题进行了研究，提出了新的关于前馈神经网络样本复杂度行为和凸线性预测问题的样本复杂度界限，并且阐明了参数与某个固定的参考矩阵的 Frobenius 范数距离的控制效果与标量值线性预测器不同的出人意料的结果。

May, 2023

有界无穷宽神经网络的深度分离

研究无穷宽度神经网络中的深度分离，该复杂性由权重的整体平方 L2 范数控制（网络中所有权重的平方和）。在以往的深度分离结果中，关注的是宽度方面的分离，这样的结果无法揭示深度是否决定了在网络宽度无限时是否可能学习出具有良好泛化性能的网络。本文研究以学习可行性所需的样本复杂性为标准的分离。具体来说，我们展示了通过由范数控制的深度为 3 的 ReLU 网络以多项式样本复杂度可学习的函数，而由范数控制的深度为 2 的 ReLU 网络无法通过次指数样本复杂度学习相同函数（对于任何范数值）。同时，我们还证明了在反向方向上不可能存在相似的陈述：通过具有无限宽度的范数控制的深度为 2 的 ReLU 网络以多项式样本复杂度可学习的任何函数也可以通过具有范数控制的深度为 3 的 ReLU 网络以多项式样本复杂度学习。

Feb, 2024

一个基于信息理论的监督学习框架

本文提出了一种新颖的信息论框架，用其自己的遗憾和样本复杂度分析机器学习的数据需求，并用该框架研究了由具有 ReLU 激活单元的深度神经网络生成的数据的样本复杂度，并在权重的特定先验分布下建立了同时独立于宽度和线性深度的样本复杂度界限。

Mar, 2022

估计卷积或循环神经网络所需的样本数量是多少？

本文研究了卷积神经网络和循环神经网络的样本复杂度，发现其样本复杂度随内在维度线性增长，但远小于全连接神经网络。研究方法包括本地经验分析和新的技术引理，希望能激发进一步理解卷积神经网络和循环神经网络的发展。

May, 2018

深度逼近空间的抽样复杂性

基于信息复杂性工具，本研究扩展了先前工作，证明了存在可以用带有 ReLU 激活函数的神经网络进行任意速率逼近的函数，但其数值计算需要指数级增长的样本数量，并展示了对于 ReQU 激活函数类似的结果。

Dec, 2023

探究过度参数化在神经网络泛化中的作用

本研究提出了基于单元能力的复杂度度量，为两层 ReLU 网络提供了更紧密的泛化界限，这可能有助于解释神经网络过参数化的泛化改进现象。同时，我们还提出了一个匹配的 Rademacher 复杂性下限，该下限优于之前神经网络的容量下限。

May, 2018

非参数神经网络

本文使用非参数方法研究神经网络中自动寻找最佳规模的问题，提出了一种使用 Lp 惩罚项限制增长的方法，并使用 AdaRad 优化算法进行训练，取得了良好的结果。

Dec, 2017

学习一层卷积神经网络的样本复杂度

我们研究了使用不重叠过滤器的一层卷积神经网络的样本复杂度，并提出了一种称为近似梯度下降的新算法来训练 CNN，该算法在随机初始化时具有地面真值参数的线性收敛性，并且适用于常规的激活函数，例如 ReLU，Leaky ReLU，Sigmod 和 Softplus 等。我们的样本复杂度超过现有结果，并匹配了具有线性激活函数的一层 CNNs 的信息论下界，表明我们的样本复杂度是紧致的。

Nov, 2019