基于切空间敏感性的 ReLU 网络的优化相关泛化界

Oct, 2023

基于切空间敏感性的 ReLU 网络的优化相关泛化界

Optimization dependent generalization bound for ReLU networks based on sensitivity in the tangent bundle

Dániel Rácz, Mihály Petreczky, András Csertán, Bálint Daróczy

TL;DR最近深度学习取得了一些极有前途的成果，尤其是在深度神经网络的泛化能力方面，然而相关文献中仍缺乏一种全面的理论来解释为什么过度参数化的模型能够在拟合训练数据的同时表现出良好的泛化能力。本文通过估计通过梯度下降从初始参数向量获得的网络集合的 Rademacher 复杂度，提出了对前馈 ReLU 网络的泛化误差进行 PAC 类型边界的方法。关键思想是限定网络梯度对优化轨迹上输入数据扰动的敏感性。所得到的边界不显式依赖于网络的深度。我们在 MNIST 和 CIFAR-10 数据集上进行了实验证实。

Abstract

Recent advances in deep learning have given us some very promising results on the generalization ability of deep neural networks, however

deep learning generalization ability deep neural networks over-parametrized models rademacher complexity

发现论文，激发创造

学习超参数化深度 ReLU 网络的梯度下降泛化误差界

通过算法依赖的综合误差界推导，论文解释了过度参数化的深度神经网络在合适的随机初始化下，使用梯度下降法可以获得任意小的泛化误差。

Feb, 2019

探究过度参数化在神经网络泛化中的作用

本研究提出了基于单元能力的复杂度度量，为两层 ReLU 网络提供了更紧密的泛化界限，这可能有助于解释神经网络过参数化的泛化改进现象。同时，我们还提出了一个匹配的 Rademacher 复杂性下限，该下限优于之前神经网络的容量下限。

May, 2018

广泛和深度神经网络的随机梯度下降的泛化界限

研究深度神经网络的训练和泛化，在过度参数化的条件下，通过神经切向随机特征模型 (NTRF) 来限制泛化误差，并建立了神经切向内核 (NTK) 的联系。

May, 2019

深度神经网络的更紧密的泛化界限：卷积神经网络、ResNet 等

我们通过引入一种新的神经网络族的 Lipschitz 属性的表征，建立了一种基于边际的数据相关的广泛深度神经网络泛化误差界限，将其与深度、宽度以及网络的雅可比矩阵联系起来。和现有的结果相比，我们实现了明显更紧的泛化下界，并且还表明，对于损失有界的情况，可以进一步改善泛化下界。除了一般的前馈深度神经网络外，我们的结果可以应用于推导流行的体系结构，包括卷积神经网络和残差网络。在实现与上一项艺术相同的泛化误差的同时，我们的误差允许选择更大的权重矩阵参数空间，从而为神经网络提供更强的表达能力。其中还提供了数值评估来支持我们的理论。

Jun, 2018

过参数化的两层神经网络的优化与泛化的细粒度分析

该论文分析了一个简单的 2 层 ReLU 网络的训练和泛化，通过对相关内核的特性进行追踪，提出了更紧致的训练速度特征描述和网络大小无关的泛化界限以及对梯度下降训练的广泛平滑函数可学性的证明。

Jan, 2019

基于模型的神经网络的泛化和估计误差界

本研究利用全局和局部 Rademacher 复杂性等复杂度度量方法，为模型网络的泛化和估计误差提供了上界，并显示了模型网络在稀疏恢复方面的泛化能力优于普通 ReLU 网络，从而导出基于模型的网络的实用设计规则以保证高泛化性能。该研究的实验结果证实了我们理论上的洞见。

Apr, 2023

深度 ReLU 网络学习所需的过度参数化程度是多少？

本研究探讨了在过度参数化的深度神经网络中，当网络宽度大于训练样本大小和目标误差的高次多项式的倒数时，通过（随机）梯度下降学习的深度神经网络可以获得良好的优化和泛化性能。此外，我们还构建了深层 ReLU 网络的学习保证，使得网络宽度对 n 和 ϵ 的对数具有良好保证。

Nov, 2019

通过泛化噪音鲁棒性，确定性 PAC-Bayesian 深度网络泛化界

本文研究了过参数化的深层网络使用随机梯度下降法（SGD）能够良好推广的能力，提出了一种 PAC-Bayesian 框架，利用这种能力为原始网络提供界限，同时不会受到权重矩阵谱范数乘积的影响。

May, 2019

神经网络中的灵敏度和泛化性：一项实证研究

本研究通过对深度学习模型的多方面度量，特别是模型对输入扰动的敏感性度量，研究了大规模的、过度参数化的神经网络与小规模的夹杂网络的复杂度与泛化之间的紧张关系，并得出结论：训练的神经网络在其训练数据范围内更加鲁棒，这种鲁棒性与泛化能力有关联，而诸如数据扩增和修正线性单元等好的泛化因素会带来更强的鲁棒性。

Feb, 2018

学习深度修正线性单元网络的固定参数可解性

使用一种称为过滤式 PCA 的新工具来解决学习具有 ReLu 激活函数的神经网络的问题，该算法可以快速，并且不需要权重具有良好的条件或正系数的假设。

Sep, 2020