Oct, 2023

基于切空间敏感性的 ReLU 网络的优化相关泛化界

TL;DR最近深度学习取得了一些极有前途的成果,尤其是在深度神经网络的泛化能力方面,然而相关文献中仍缺乏一种全面的理论来解释为什么过度参数化的模型能够在拟合训练数据的同时表现出良好的泛化能力。本文通过估计通过梯度下降从初始参数向量获得的网络集合的 Rademacher 复杂度,提出了对前馈 ReLU 网络的泛化误差进行 PAC 类型边界的方法。关键思想是限定网络梯度对优化轨迹上输入数据扰动的敏感性。所得到的边界不显式依赖于网络的深度。我们在 MNIST 和 CIFAR-10 数据集上进行了实验证实。