使用浅层单变量 ReLU 网络的噪声插值学习
本研究针对使用梯度流训练的深度线性网络的过度风险进行了边界限制,发现与最小 l2 范数插值的已知边界非常接近或者相等,深度并不能提高算法隐藏噪声的能力,并通过模拟数据验证了该边界的典型行为。
Sep, 2022
我们研究了具有噪声标签的一元非参数回归问题中两层 ReLU 神经网络的泛化。我们提出了一种新的局部极小值泛化理论,证明了梯度下降算法在常数学习率下能稳定收敛至该极小值。我们证明了在合理的假设下,梯度下降算法可以找到表示平滑函数的局部极小值,并给出了均方误差的近乎最优上界。我们的理论结果通过大量模拟验证,表明大学习率训练可以得到稀疏线性样条拟合。我们是第一个在非插值情况下通过极小值稳定性获得泛化界限的研究,并且证明了没有正则化的 ReLU 神经网络可以在非参数回归中实现接近最优的速率。
Jun, 2024
本研究探讨了现代机器学习模型中广泛存在的过度拟合现象及理论预测,表明超学习风险会在满足一定条件的情况下逐渐减小,并且在两层神经网络中使用 ReLU 激活函数的情况下具有近最小化学习率的能力。同时,还发现当网络参数数量超过 O (n^2) 时,超学习风险开始增加,这与最近的实证结果相符。
Jun, 2021
研究在使用 ReLU 网络时,通过对已知区域进行插值,证明了经验风险最小化器在数据点和参数数目趋向无穷大时收敛到最小范数插值者,当且仅当对应于网络宽度和数据点增长的特定速率消失时对权重衰减正则化项进行惩罚,在显式和隐式正则化情况下,数值方法研究了常见优化算法对已知最小范数插值者的隐含偏好。
Nov, 2023
本文探讨使用随机梯度下降法训练具有 ReLU 网络的单隐藏层多元网络应用于二次损失下所得到解的性质,得到其 Laplacian 的类似结果。结果表明,当步长增大时,网络映射函数二阶导数有界性的界限变小,即使用更大的步长会导致更平稳的预测器,最后,本文证明了如果函数在 Sobolev 意义下足够平滑,则可以使用相应于梯度下降稳定解的 ReLU 浅层网络任意逼近。
Jun, 2023
本文介绍了在一个维度输入下,解决最小二乘插值的超参数化浅层 ReLU 网络的梯度动态的理论和实证研究,阐述了这种网络的梯度动态通过网络函数的非冗余参数化来确定,同时还研究了两种学习模式:核函数和自适应函数,以及它们所对应的性质。
Jun, 2019
研究了一些与浅层 ReLU$^k$ 神经网络相对应的变分空间的近似容量,证明了这些空间包含充分平滑的函数与有限变化范数。此外,还建立了以变化范数为基础的逼近率与神经元数量的最佳逼近率,并且证明了浅层 ReLU$^k$ 神经网络可以实现学习 H"older 函数的极小极值速率,而过参量化 (深或浅) 神经网络可以实现非参数回归的几乎最优速率。
Apr, 2023
通过训练一个从一个小初始值开始的任意宽度的一层 ReLU 神经网络来证明,对于学习单个神经元的基本回归任务,该网络能收敛于零损失并隐含有利于最小化网络参数秩的偏见。
Jun, 2023
通过 ReLU 神经网络的微积分构建人工神经网络,我们分析了针对弱 Sobolev 范数的 Sobolev 正则函数的逼近速率。其次,我们为 Sobolev 正则函数的类建立了对于 ReLU 神经网络的逼近下界,并将结果拓展到应用于偏微分方程数值分析的最相关情景。
Feb, 2019