线性神经网络训练中隐性偏差的统一视角
本论文研究神经网络训练中的隐性偏差,探究梯度流和梯度下降的极限情况下,使用对数或指数损失函数对线性可分数据进行训练的深度线性网络的权重收敛于秩 1 矩阵的现象是否会发生于全连接层和跳跃连接层的 ReLU 激活前馈网络中,提出了一些训练不变性,并以特定参数方向收敛的 ReLU 网络的常数权重和多线性函数作为论据进行证明。
Jan, 2022
本论文研究了批归一化在梯度下降中的隐性偏差,证明了学习用批归一化的线性模型进行二进制分类时,梯度下降会以 $exp(-Ω(log^2 t))$ 收敛到训练数据上的均匀边缘分类器。这将批归一化的线性模型与不带批归一化的模型区分开来,其隐性偏差类型和收敛速率都不同。论文还将结果扩展到一类二层,单滤波器线性卷积神经网络,并证明批归一化隐含着对逐块均匀边缘的偏离。论文在两个例子中表明,对于某些学习问题,逐块均匀边缘分类器可以胜过最大边缘分类器。这些结果有助于更好地理解批归一化。
Jun, 2023
本文研究了随机梯度下降在对角线线性网络上的动态规律,证明了它比梯度下降的解具有更好的泛化性能,并发现收敛速度控制偏见效应的大小,结果支持了结构化噪声可以引起更好泛化性能的理论结论。
Jun, 2021
針對兩層完全連接的 (leaky) ReLU 神經網絡,研究梯度下降的隱含偏差,並證明梯度下降在訓練中會找到收斂於 1 的具有穩定排名的神經網絡,對於 ReLU 激活函數則收斂於一個上界常數,同時所有訓練數據點的標準化邊界漸進地相同。實驗結果對我們的理論結果進行了驗證。
Oct, 2023
分析了具有同质性激活函数的两层神经网络在无限宽的情况下的训练和泛化行为,并表明在存在低维结构的情况下,梯度流的极限可以完全表征为某些函数空间中的最大间隔分类器,并且具有强的泛化边界,在实践中符合两层神经网络的行为,并证明了其隐式偏差的统计优点。
Feb, 2020
本研究通过使用梯度下降法在全宽线性卷积网络上的实验,证明它在深度为 L 时收敛于一个与频域中的 L2/L bridge penalty 相关的线性预测器。与此相反,对于线性全连接网络,无论深度如何,梯度下降法都收敛于硬边界的线性支持向量机解。
Jun, 2018
用梯度流训练具有近似保证的神经网络对目标进行测量,并在连续的带状 d 维单位球上用 L2 正规化,网络为全连接的常数深度和增加的宽度,基于神经切向核(NTK)对非凸倒数第二层的分析,呈现出欠参数化的状态以满足近似所需的自然平滑性假设。
Sep, 2023