研究浅层神经网络在过参数化情况下,如何使用二次激活函数进行训练并找到全局最优解,结果表明此方法适用于具有任意输入 / 输出对的任何训练数据,并可使用各种本地搜索启发式方法高效地找到全局最优解。同时,对於差分激活函数,我们也证明了梯度下降法在得到合适的初值后可以以线性速度收敛到全局最优解,它的输入来自符合高斯分布的选定属性且标记是通过种植的重量系数生成的。
Jul, 2017
深度神经网络在实际应用中表现出卓越的泛化能力,本研究旨在通过信息理论的泛化界限来捕捉深度对于监督学习的影响和益处。通过从网络内部表示的训练和测试分布的 Kullback-Leibler(KL)散度或 1-Wasserstein 距离导出了两个层次性的泛化误差界限。KL 散度界限随着层索引的增加而收缩,而 Wasserstein 界限暗示了存在一个层作为泛化漏斗,它达到了最小的 1-Wasserstein 距离。在具有线性 DNN 的二元高斯分类设置下,推导出了两个界限的解析表达式。通过分析三个正则化 DNN 模型(Dropout,DropConnect 和高斯噪声注入)的连续层之间的强数据处理不等式(SDPI)系数,量化了相关信息度量在网络深入时的收缩情况。这使得我们的泛化界限能够捕捉与网络架构参数相关的收缩情况。将结果特化为具有有限参数空间和 Gibbs 算法的 DNNs 表明,在这些示例中,更深而较窄的网络架构具有更好的泛化能力,尽管这个观点的广泛适用性仍然有待讨论。
Apr, 2024
本文提出了一种新颖的信息论框架,用其自己的遗憾和样本复杂度分析机器学习的数据需求,并用该框架研究了由具有 ReLU 激活单元的深度神经网络生成的数据的样本复杂度,并在权重的特定先验分布下建立了同时独立于宽度和线性深度的样本复杂度界限。
Mar, 2022
采用信息理论的视角探索深度神经网络在有监督分类中的理论基础,分析了拟合误差、模型风险和泛化误差上界的相关概念及其对样本数据质量和正则化超参数设置的指导作用,研究发现过度参数化、非凸优化和平坦极小值在深度神经网络中的影响,并通过实证验证证实了理论发现与实际风险之间显著的正相关关系。
Jun, 2024
本文基于 Neu et al. (2021) 的最新研究,在信息论方面提出了用于衡量机器学习模型的泛化误差的新上界。 通过应用这些上界,分析了线性和 ReLU 网络的泛化行为,并得出了关于 SGD 训练的洞见以及一种新的简单的正则化方案。实验结果表明此正则方案的表现与当前最先进的方案相媲美。
Oct, 2021
本研究提出了基于单元能力的复杂度度量,为两层 ReLU 网络提供了更紧密的泛化界限,这可能有助于解释神经网络过参数化的泛化改进现象。同时,我们还提出了一个匹配的 Rademacher 复杂性下限,该下限优于之前神经网络的容量下限。
May, 2018
本文通过分析神经网络在超参数化情况下的学习理论,证明了神经网络能够通过 SGD 算法简单地学习某些重要的概念并且样本复杂度几乎独立于网络参数的数量。此外,本文还建立了一个神经网络的二次近似概念,并将其与如何逃离鞍点的 SGD 理论联系起来。
Nov, 2018
该论文分析了一个简单的 2 层 ReLU 网络的训练和泛化,通过对相关内核的特性进行追踪,提出了更紧致的训练速度特征描述和网络大小无关的泛化界限以及对梯度下降训练的广泛平滑函数可学性的证明。
Jan, 2019
本文介绍了一类采用可计算的信息理论模型的深度学习模型,探讨了该模型从启发式的统计物理方法中导出熵和互信息的方法,在该方法的基础上,设计了一种实验框架用于对生成模型进行训练,并对该模型进行验证,同时研究了本模型在学习过程中的行为,得出结论:在所提出的情况下,压缩和泛化之间的关系仍然不明确。
通过优化 PAC-Bayes 边界,我们能够计算深度随机神经网络分类器的数量较小、训练示例数量唯有数万个的保真度上限,并将我们的发现与近期以及早期的扁平最小值和基于 MDL 的泛化解释联系起来。
Mar, 2017