浅层一元 ReLU 网络的梯度动力学
通过训练一个从一个小初始值开始的任意宽度的一层 ReLU 神经网络来证明,对于学习单个神经元的基本回归任务,该网络能收敛于零损失并隐含有利于最小化网络参数秩的偏见。
Jun, 2023
本文探讨使用随机梯度下降法训练具有 ReLU 网络的单隐藏层多元网络应用于二次损失下所得到解的性质,得到其 Laplacian 的类似结果。结果表明,当步长增大时,网络映射函数二阶导数有界性的界限变小,即使用更大的步长会导致更平稳的预测器,最后,本文证明了如果函数在 Sobolev 意义下足够平滑,则可以使用相应于梯度下降稳定解的 ReLU 浅层网络任意逼近。
Jun, 2023
通过研究单神经元 ReLU 网络的梯度流动力学,发现了支持向量的隐式偏差,这在解释 ReLU 网络为何具有良好的泛化能力中起着关键作用;此外,证明了对于二维情况下单个神经元的全局收敛性,并分析了在梯度流的条件下学习权重范数的严格增长。
Feb, 2022
本文研究从标准高斯分布采样输入,从嘈杂的教师网络生成输出的一层隐藏神经网络的学习问题。研究分析了梯度下降在基于经验风险最小化的训练中的性能,并提供了算法相关的保证,证明了张量初始化后跟随梯度下降可以以线性速率收敛到地面真值参数,证明本文是第一个表征实际学习具有多个神经元的一层 ReLU 网络的恢复保证的工作。数值实验验证了我们的理论发现。
Jun, 2018
研究深度神经网络在过度参数化的情况下训练的现象,发现在网络具有小初值和学习率的假设下,权重向量趋向于集中在少量由数据决定的方向,这使得对于给定的输入数据,网络大小独立,只能得到有限数量的函数
Mar, 2018
針對兩層完全連接的 (leaky) ReLU 神經網絡,研究梯度下降的隱含偏差,並證明梯度下降在訓練中會找到收斂於 1 的具有穩定排名的神經網絡,對於 ReLU 激活函數則收斂於一個上界常數,同時所有訓練數據點的標準化邊界漸進地相同。實驗結果對我們的理論結果進行了驗證。
Oct, 2023
研究了一些与浅层 ReLU$^k$ 神经网络相对应的变分空间的近似容量,证明了这些空间包含充分平滑的函数与有限变化范数。此外,还建立了以变化范数为基础的逼近率与神经元数量的最佳逼近率,并且证明了浅层 ReLU$^k$ 神经网络可以实现学习 H"older 函数的极小极值速率,而过参量化 (深或浅) 神经网络可以实现非参数回归的几乎最优速率。
Apr, 2023
我们研究了具有噪声标签的一元非参数回归问题中两层 ReLU 神经网络的泛化。我们提出了一种新的局部极小值泛化理论,证明了梯度下降算法在常数学习率下能稳定收敛至该极小值。我们证明了在合理的假设下,梯度下降算法可以找到表示平滑函数的局部极小值,并给出了均方误差的近乎最优上界。我们的理论结果通过大量模拟验证,表明大学习率训练可以得到稀疏线性样条拟合。我们是第一个在非插值情况下通过极小值稳定性获得泛化界限的研究,并且证明了没有正则化的 ReLU 神经网络可以在非参数回归中实现接近最优的速率。
Jun, 2024