浅层神经网络超参数化的监督学习基本极限

Jul, 2023

浅层神经网络超参数化的监督学习基本极限

Fundamental limits of overparametrized shallow neural networks for supervised learning

Francesco Camilli, Daria Tieplova, Jean Barbier

TL;DR对使用两层神经网络进行信息理论分析的研究，研究了限制数据和模型的情况下神经网络的性能极限，结果表明这个性能极限取决于训练数据的数量、输入维度和隐藏单元的数量

Abstract

We carry out an information-theoretical analysis of a two-layer neural network trained from input-output pairs generated by a teacher network with matching architecture, in overparametrized regimes. Our results c

neural network information-theoretical analysis overparametrized regimes performance limits two-layer teacher neural network model

发现论文，激发创造

过度参数的浅层神经网络优化空间的理论洞见

研究浅层神经网络在过参数化情况下，如何使用二次激活函数进行训练并找到全局最优解，结果表明此方法适用于具有任意输入 / 输出对的任何训练数据，并可使用各种本地搜索启发式方法高效地找到全局最优解。同时，对於差分激活函数，我们也证明了梯度下降法在得到合适的初值后可以以线性速度收敛到全局最优解，它的输入来自符合高斯分布的选定属性且标记是通过种植的重量系数生成的。

Jul, 2017

深度神经网络的信息论泛化界

深度神经网络在实际应用中表现出卓越的泛化能力，本研究旨在通过信息理论的泛化界限来捕捉深度对于监督学习的影响和益处。通过从网络内部表示的训练和测试分布的 Kullback-Leibler（KL）散度或 1-Wasserstein 距离导出了两个层次性的泛化误差界限。KL 散度界限随着层索引的增加而收缩，而 Wasserstein 界限暗示了存在一个层作为泛化漏斗，它达到了最小的 1-Wasserstein 距离。在具有线性 DNN 的二元高斯分类设置下，推导出了两个界限的解析表达式。通过分析三个正则化 DNN 模型（Dropout，DropConnect 和高斯噪声注入）的连续层之间的强数据处理不等式（SDPI）系数，量化了相关信息度量在网络深入时的收缩情况。这使得我们的泛化界限能够捕捉与网络架构参数相关的收缩情况。将结果特化为具有有限参数空间和 Gibbs 算法的 DNNs 表明，在这些示例中，更深而较窄的网络架构具有更好的泛化能力，尽管这个观点的广泛适用性仍然有待讨论。

Apr, 2024

一个基于信息理论的监督学习框架

本文提出了一种新颖的信息论框架，用其自己的遗憾和样本复杂度分析机器学习的数据需求，并用该框架研究了由具有 ReLU 激活单元的深度神经网络生成的数据的样本复杂度，并在权重的特定先验分布下建立了同时独立于宽度和线性深度的样本复杂度界限。

Mar, 2022

监督分类的信息论视角下的误差边界

采用信息理论的视角探索深度神经网络在有监督分类中的理论基础，分析了拟合误差、模型风险和泛化误差上界的相关概念及其对样本数据质量和正则化超参数设置的指导作用，研究发现过度参数化、非凸优化和平坦极小值在深度神经网络中的影响，并通过实证验证证实了理论发现与实际风险之间显著的正相关关系。

Jun, 2024

关于使用随机梯度下降训练的模型的泛化：信息论界限和含义

本文基于 Neu et al. (2021) 的最新研究，在信息论方面提出了用于衡量机器学习模型的泛化误差的新上界。通过应用这些上界，分析了线性和 ReLU 网络的泛化行为，并得出了关于 SGD 训练的洞见以及一种新的简单的正则化方案。实验结果表明此正则方案的表现与当前最先进的方案相媲美。

Oct, 2021

探究过度参数化在神经网络泛化中的作用

本研究提出了基于单元能力的复杂度度量，为两层 ReLU 网络提供了更紧密的泛化界限，这可能有助于解释神经网络过参数化的泛化改进现象。同时，我们还提出了一个匹配的 Rademacher 复杂性下限，该下限优于之前神经网络的容量下限。

May, 2018

超参数神经网络中的学习和泛化：超越两层

本文通过分析神经网络在超参数化情况下的学习理论，证明了神经网络能够通过 SGD 算法简单地学习某些重要的概念并且样本复杂度几乎独立于网络参数的数量。此外，本文还建立了一个神经网络的二次近似概念，并将其与如何逃离鞍点的 SGD 理论联系起来。

Nov, 2018

过参数化的两层神经网络的优化与泛化的细粒度分析

该论文分析了一个简单的 2 层 ReLU 网络的训练和泛化，通过对相关内核的特性进行追踪，提出了更紧致的训练速度特征描述和网络大小无关的泛化界限以及对梯度下降训练的广泛平滑函数可学性的证明。

Jan, 2019

深度神经网络模型中的熵和互信息

本文介绍了一类采用可计算的信息理论模型的深度学习模型，探讨了该模型从启发式的统计物理方法中导出熵和互信息的方法，在该方法的基础上，设计了一种实验框架用于对生成模型进行训练，并对该模型进行验证，同时研究了本模型在学习过程中的行为，得出结论：在所提出的情况下，压缩和泛化之间的关系仍然不明确。

May, 2018

计算具有非平凡泛化界的深度（随机）神经网络，其参数数量远多于训练数据

通过优化 PAC-Bayes 边界，我们能够计算深度随机神经网络分类器的数量较小、训练示例数量唯有数万个的保真度上限，并将我们的发现与近期以及早期的扁平最小值和基于 MDL 的泛化解释联系起来。

Mar, 2017