基于模型的神经网络的泛化和估计误差界
最近深度学习取得了一些极有前途的成果,尤其是在深度神经网络的泛化能力方面,然而相关文献中仍缺乏一种全面的理论来解释为什么过度参数化的模型能够在拟合训练数据的同时表现出良好的泛化能力。本文通过估计通过梯度下降从初始参数向量获得的网络集合的 Rademacher 复杂度,提出了对前馈 ReLU 网络的泛化误差进行 PAC 类型边界的方法。关键思想是限定网络梯度对优化轨迹上输入数据扰动的敏感性。所得到的边界不显式依赖于网络的深度。我们在 MNIST 和 CIFAR-10 数据集上进行了实验证实。
Oct, 2023
本文研究了深度神经网络的泛化能力和节点稀疏性之间的关系,通过开发一个基于减小的有效模型大小的框架来证明了稀疏和泛化之间的基本权衡关系,并提出了一种新的方法来分析这个问题。
Jul, 2023
本文基于 Neu et al. (2021) 的最新研究,在信息论方面提出了用于衡量机器学习模型的泛化误差的新上界。 通过应用这些上界,分析了线性和 ReLU 网络的泛化行为,并得出了关于 SGD 训练的洞见以及一种新的简单的正则化方案。实验结果表明此正则方案的表现与当前最先进的方案相媲美。
Oct, 2021
使用基于稀疏连接 ReLU 激活函数的深层神经网络,通过适当选择网络结构实现多变量非参数回归模型的极小极限 (最优) 收敛速率 (最多出现 $log n$- 因子),同时为多层前馈神经网络表现良好提供理论解释,并表明在不用结构约束的情况下,调整深度可以使模型的性能更好。
Aug, 2017
本研究提出了基于单元能力的复杂度度量,为两层 ReLU 网络提供了更紧密的泛化界限,这可能有助于解释神经网络过参数化的泛化改进现象。同时,我们还提出了一个匹配的 Rademacher 复杂性下限,该下限优于之前神经网络的容量下限。
May, 2018
该研究使用深度 ReLU 神经网络对由 Gaussian Mixture Models (GMMs) 在 $R^d$ 下生成的无界数据进行二元分类,并首次获得了无需限制模型参数的分类的非渐进上界和收敛速度的超额风险 (超额误分类误差)。所得到的收敛速度不依赖于维度 d,表明深度 ReLU 网络能够克服在分类中的维度困境。通过利用高斯分布的解析性和快速衰减,我们考虑了一个无界域,以改善现有分类算法的泛化分析,为一般解析函数使用 ReLU 网络提供了新颖的近似误差界限,这对研究人员可能具有独立的兴趣。高斯分布很好地适用于建模应用中产生的数据,例如语音、图像和文本;我们的结果在实际分类问题中为深度神经网络的效率提供了理论验证。
Aug, 2023
在这项研究中,我们从压缩的角度提出了一系列直观,数据相关且易于测量的属性,紧密地刻画了神经网络的可压缩性和通用性,进而提供了进一步设计具有更好 / 保证通用性属性的神经网络架构的见解。
Jan, 2020
该研究通过神经切向核(NTK)模式下的梯度下降探讨了训练一层过度参数化的 ReLU 网络,其中网络的偏置被初始化为某个常量而不是零。该初始化的诱人好处是神经网络将可以在整个训练过程中保持稀疏激活,从而实现快速训练。结果表明,在稀疏化后,网络可以实现与密集网络一样快的收敛速度。其次,提供了宽度稀疏性的相关性,给出了一个稀疏性相关的 Rademacher 复杂度和泛化性能界限。最后,研究了极限 NTK 的最小特征值,发现可以使用可训练偏置来提高推广性。
Jan, 2023
本文研究了过参数化的深层网络使用随机梯度下降法(SGD)能够良好推广的能力,提出了一种 PAC-Bayesian 框架,利用这种能力为原始网络提供界限,同时不会受到权重矩阵谱范数乘积的影响。
May, 2019
本文介绍了神经网络中过度参数化情况下的泛化误差及其相关的新理论,即神经切向核理论,通过该理论的信息获取量计算出学习问题的复杂度并证明了泛化误差的上界,同时讨论了该理论对于强化学习领域的应用。
Sep, 2021