超参数神经网络的最小范数解的泛化误差

Dec, 2019

超参数神经网络的最小范数解的泛化误差

The Generalization Error of the Minimum-norm Solutions for Over-parameterized Neural Networks

PDF

Weinan E, Chao Ma, Lei Wu

TL;DR我们研究了三种过度参数化的机器学习模型的最小范数解的概括性质，证明了只要模型的参数化程度足够高，最小范数解的泛化误差可与蒙特卡洛速率相当，至少相当于一些对数项。

Abstract

We study the generalization properties of minimum-norm solutions for three over-parametrized →

generalization properties minimum-norm solutions machine learning models over-parametrized monte carlo rate

发现论文，激发创造

学习超参数化深度 ReLU 网络的梯度下降泛化误差界

通过算法依赖的综合误差界推导，论文解释了过度参数化的深度神经网络在合适的随机初始化下，使用梯度下降法可以获得任意小的泛化误差。

Feb, 2019

深度网络中的泛化（IIIb 理论）

该论文研究了深度神经网络中过拟合的问题，证明了使用特定的损失函数时神经网络的收敛性及性能，提出了一种实用的判断不同零最小化点泛化性能的方法。

Jun, 2018

两层神经网络和随机特征模型在梯度下降动态下优化和泛化属性的比较分析

本研究对二层神经网络模型的梯度下降动态进行了较全面的分析，并考虑了在更新两个层的参数时，一般的初始化方案以及网络宽度和训练数据大小的一般方案。在过度参数化的情况下，梯度下降动态可以快速地达到零训练损失，无论标签的质量如何。此外，证明了神经网络模型所表示的函数始终与核方法的函数保持一致。对于网络宽度和训练数据大小的一般值，建立了适当的再生核 Hilbert 空间的目标函数的尖锐估计。

Apr, 2019

神经网络的泛化误差的高维动态

本文通过随机矩阵理论和线性模型中的准确解，研究了使用梯度下降训练的大型神经网络的泛化动态，发现梯度下降学习的动态自然地保护了大型网络免受过度训练和过拟合的影响，当自由参数的有效数量等于样本数量时，网络过度训练最严重，大小的适当调整可以减少网络过度训练，另外，高维域下，低泛化误差需要从小的初始权重开始。此外，本文还发现了两个新的现象：在梯度下降过程中存在一个冻结的权重子空间，而高维状态的统计特性可保护免受过度训练的影响。

Oct, 2017

超参数问题中最小权重范式模型不总是具有良好的泛化能力

通过实证发现，自适应方法在深度神经网络的训练中相比随机梯度下降可以有更好的泛化能力，需要较少的调整，同时不一定得到更小的权重范数。

Nov, 2018

探究过度参数化在神经网络泛化中的作用

本研究提出了基于单元能力的复杂度度量，为两层 ReLU 网络提供了更紧密的泛化界限，这可能有助于解释神经网络过参数化的泛化改进现象。同时，我们还提出了一个匹配的 Rademacher 复杂性下限，该下限优于之前神经网络的容量下限。

May, 2018

图神经网络在均场区域的泛化误差

该研究提供了一个理论框架，用于评估图神经网络在过度参数化阶段中进行图分类任务的泛化误差，其中参数数量超过数据点数量。我们探索了两种广泛使用的图神经网络类型：图卷积神经网络和消息传递图神经网络。在该研究之前，过度参数化阶段对泛化误差的现有界限不具信息性，限制了我们对过度参数化网络性能的理解。我们的新方法涉及在平均场阶段内导出上界，用于评估这些图神经网络的泛化误差。我们建立了收敛速度为 $O (1/n)$ 的上界，其中 $n$ 为图样本数量。这些上界在具有挑战性的过度参数化阶段为网络在未知数据上的性能提供了理论保证，并且总体上有助于我们对它们性能的理解。

Feb, 2024

关于过拟合两层神经切向核模型的泛化能力

本文研究具有 ReLU 激活函数且没有偏差项的两层神经网络的神经切向核（NTK）模型的 min（L2）-norm 过拟合解的泛化性能，并显示随着神经元数目 p 的增加，测试误差表现出不同于具有简单傅里叶或高斯特征的过度参数化线性模型的 “双峰现象” 的特征。

Mar, 2021

深度学习模型中参数数量与泛化能力的关系及数量级的估算

本文通过神经切向核将大型神经网络连接到核方法，探讨了初始化会导致神经网络输出函数在期望附近产生有限大小的随机波动，影响分类的广义误差。我们最终的分析表明，在计算限制条件下，使用几个中间大小的网络，略高于阈值点，对它们的输出求平均，可以获得最小的分类误差。

Jan, 2019

训练超参数化深度神经网络的改进分析

本文提供了一种改进的分析方法来探究（随机）梯度下降训练深度神经网络的全局收敛，该方法比之前的研究工作以更加温和的过度参数化条件确定了问题相关参数的大小，包括更紧密的梯度下限和更清晰的算法轨迹路径描述。

Jun, 2019