高维神经切向核: 三倍下降与广义化的多尺度理论
本研究证明了在梯度下降算法中,人工神经网络的演化可以被表示为一种核函数,称为神经切向核。它在无限宽度下收敛于一个明确的极限核,并且在训练过程中保持不变,可以用函数空间而不是参数空间来研究人工神经网络的训练。我们关注最小二乘回归并表明,在无限宽度下,网络函数$f_ heta$在训练期间遵循线性微分方程。最后,我们对神经切向核进行了数值研究,观察了其在宽网络中的行为,并将其与无限宽度的极限进行了比较。
Jun, 2018
研究发现神经网络在过参量化后,当行为符合核化线性预测器时,在梯度下降的训练下能找到最小RKHS范数解;与此不同的是,梯度下降在过参量化的多层网络上可能引入不是RKHS范数的丰富隐性偏差。本文基于Chizat和Bach的观察,展示了初始化规模是如何控制多层同质模型中的“核”(也称惰性)和“丰富”(也称活动)区域之间的转换并影响泛化属性的。我们对一个简单的两层模型进行了全面而详细的分析,已经展示了核与丰富区域之间有一个有趣和有意义的转换,并展示了矩阵分解模型和多层非线性网络的转换。
Jun, 2019
研究发现,通过过度参数化,深度神经网络能够在插值训练数据的同时实现卓越的泛化性能,并且在测试误差上具有双下降现象,该现象可以通过集成平均估计器进行抑制。
Mar, 2020
该研究通过建立偏差-方差分解方法,研究了高维核岭回归在欠参数和过参数情况下的泛化性能特征, 揭示了特定的正则化方案下偏差和方差与训练数据数量n 和特征维度d的组合方式对核回归风险曲线的形状的影响。
Oct, 2020
本文研究具有ReLU激活函数且没有偏差项的两层神经网络的神经切向核(NTK)模型的min(L2)-norm过拟合解的泛化性能,并显示随着神经元数目p的增加,测试误差表现出不同于具有简单傅里叶或高斯特征的过度参数化线性模型的“双峰现象”的特征。
Mar, 2021
本研究发现,神经网络的光滑度才是决定良性过拟合的关键,只有在评估器的导数充分大时才能实现良性过拟合。我们证明在固定维度中,光滑度适中的良性过拟合是不可能的,在回归模型中,采用一系列具有大导数的峰形平滑内核可以实现良性过拟合。通过添加小的高频波动到激活函数中,可以在无限宽的神经网络中实现良性过拟合,从而提高在低维数据集上的泛化性能。
May, 2023
通过研究神经切线核在代替有限宽度深度神经网络中的性能表现,揭示了核的正则性是性能的关键决定因素,从而提出了一种廉价改进深度神经网络准确性的方法。这一理论框架不仅为使用共轭核代替神经切线核提供了理论基础,而且揭示了不同近似方法的稳健性,为提高深度神经网络的准确性提供了建议。
Oct, 2023
传统统计学智慧揭示了模型复杂度和预测误差之间的关系,但最近的研究提出了双峰现象的理论,即在参数个数超过样本大小时,测试误差会出现第二次下降。本研究挑战了此理论,并通过对经典统计机器学习方法的细致研究,提出了双峰现象的解释,认为其位置与插值阈值无直接关联,并且通过采用非参数统计学的视角,证明其曲线实际上符合传统的凸形状,解决了双峰现象和统计直觉之间的矛盾。
Oct, 2023
本研究解决了超参数化两层神经网络在无参数回归中的训练问题,提出了一种无分布假设的分析框架。研究结果表明,使用梯度下降法及早停止训练的神经网络可实现与经典核回归相同的无参数回归风险收敛速率,并填补了经典核回归模型与超参数化神经网络之间的理论空白。这一发现对机器学习中的无参数方法提供了重要的理论支持。
Nov, 2024
本研究探讨了通过过参数化的两层神经网络进行非参数回归的问题,提出了在梯度下降下提前停止训练的条件下,网络可以实现与经典核回归相同的风险率$\cO(\eps_n^2)$,且这一结果不依赖于训练数据的分布假设。这一发现填补了传统核回归模型与过参数化有限宽神经网络之间的理论空白,为非参数回归研究提供了重要的理论支持。
Nov, 2024