使用过参数化的浅层 ReLU 神经网络进行非参数回归
研究了一些与浅层 ReLU$^k$ 神经网络相对应的变分空间的近似容量,证明了这些空间包含充分平滑的函数与有限变化范数。此外,还建立了以变化范数为基础的逼近率与神经元数量的最佳逼近率,并且证明了浅层 ReLU$^k$ 神经网络可以实现学习 H"older 函数的极小极值速率,而过参量化 (深或浅) 神经网络可以实现非参数回归的几乎最优速率。
Apr, 2023
使用基于稀疏连接 ReLU 激活函数的深层神经网络,通过适当选择网络结构实现多变量非参数回归模型的极小极限 (最优) 收敛速率 (最多出现 $log n$- 因子),同时为多层前馈神经网络表现良好提供理论解释,并表明在不用结构约束的情况下,调整深度可以使模型的性能更好。
Aug, 2017
本文研究了在低维多條件上 H"{o} lder 函数的非参数回归问题,并使用深层 ReLU 网络实现,研究结果表明深层 ReLU 网络具有适应低维几何结构的能力,可快速收敛于数据固有维度,进而解决高维数据的低维几何结构问题。
Aug, 2019
我们研究了具有噪声标签的一元非参数回归问题中两层 ReLU 神经网络的泛化。我们提出了一种新的局部极小值泛化理论,证明了梯度下降算法在常数学习率下能稳定收敛至该极小值。我们证明了在合理的假设下,梯度下降算法可以找到表示平滑函数的局部极小值,并给出了均方误差的近乎最优上界。我们的理论结果通过大量模拟验证,表明大学习率训练可以得到稀疏线性样条拟合。我们是第一个在非插值情况下通过极小值稳定性获得泛化界限的研究,并且证明了没有正则化的 ReLU 神经网络可以在非参数回归中实现接近最优的速率。
Jun, 2024
本文探讨使用随机梯度下降法训练具有 ReLU 网络的单隐藏层多元网络应用于二次损失下所得到解的性质,得到其 Laplacian 的类似结果。结果表明,当步长增大时,网络映射函数二阶导数有界性的界限变小,即使用更大的步长会导致更平稳的预测器,最后,本文证明了如果函数在 Sobolev 意义下足够平滑,则可以使用相应于梯度下降稳定解的 ReLU 浅层网络任意逼近。
Jun, 2023
ReLU shallow neural networks can uniformly approximate functions from the H"older space with rates close to the optimal one in high dimensions.
Jul, 2023
用 ReLU 网络和随机生成的权重和偏置,在高概率下达到高于所需精度的近似,填补了关于神经网络控制中的近似性质的证明缺失。
Mar, 2024
研究了使用梯度下降法在过度参数化的双层神经网络中训练,证明了在足够过度参数化的条件下,GD 方法可以近似地将振幅算子的幂应用于生成响应 / 标签的基础 / 目标函数 $f^*$,并且提供了使用低秩逼近来减少经验风险的线性速率的足够条件,介绍了适用于球面上的多项式的一般结果的应用
May, 2019
研究了在 $L^2$ 意义下逼近分类器函数所需的 ReLU 神经网络的深度和权重数量,构造了一类具有固定层数的人工神经网络,使用 ReLU 激活函数逼近可允许不连续的分段 $C^β$ 函数,权重数量为 $O (ε^{-(2 (d-1))/β})$,并证明这是最优的。此外,为了实现最优逼近率,需要具有一定深度的 ReLU 网络。最后,分析了在高维空间中使用特征映射和分类器函数逼近的情况。
Sep, 2017
本文研究了 ReLU 神经网络中的过度参数化对优化景观的影响,证明了当教师和学生网络拥有相同数量的神经元时,目标函数在全局最小值周围具有强凸性,但在任何超参数化量之后甚至没有局部凸性,而对于大多数方向来说保持一点强凸性,并在此属性之下展示优化保证。
Jun, 2020