本研究证明了在梯度下降算法中,人工神经网络的演化可以被表示为一种核函数,称为神经切向核。它在无限宽度下收敛于一个明确的极限核,并且在训练过程中保持不变,可以用函数空间而不是参数空间来研究人工神经网络的训练。我们关注最小二乘回归并表明,在无限宽度下,网络函数 $f_ heta$ 在训练期间遵循线性微分方程。最后,我们对神经切向核进行了数值研究,观察了其在宽网络中的行为,并将其与无限宽度的极限进行了比较。
Jun, 2018
本文研究了有限宽度的深度全连接神经网络中神经切向核的动态,并推导出一个无穷层次的普通微分方程组,它捕捉了深层神经网络的梯度下降动态。此外,在条件限制下,研究证明了 NTH 的截断层次近似于 NTK 的动态。这些描述使直接研究深度神经网络的 NTK 的变化成为可能,同时也揭示了深度神经网络胜过相应极限 NTK 的内在原因。
Sep, 2019
该论文探讨了宽神经网络与线性输出层的关系,并发现它们在梯度下降的优化路径区域中几乎是线性的,并且有几乎恒定的神经切向核。通过递归地构建由一组子模型组成的神经网络装配模型的方法,该论文提出了一种新的视角解释宽神经网络的线性结构。
Mar, 2022
使用神经切比洛夫核方法,获得了网络训练误差上限、网络大小不变的泛化误差上限,以及一个简单且解析的核函数,能够优于相关网络,但需要注意网络缩放因子的问题。本文对原有方法进行修正,提出了更加严格的误差上限,解决了缩放问题。
Jul, 2020
本研究分析了神经网络中梯度下降法的学习动态,发现学习过程受一个称为神经切向核的初始化方式所掌控,比较了该核与其他类似结构的核函数的平滑性、逼近性和稳定性等属性,并考察了卷积网络在图像变形下的稳定性。
May, 2019
通过 Tensor Programs 技术在 Tensor Program 中分析的 SGD 动态,我们证明了使用 NTK 参数化的相同神经网络在训练期间遵循功能空间中的内核梯度下降动态,其中内核是无穷宽度 NTK,从而完整证明了 NTK 行为的结构普适性。
May, 2021
本文证明了任何结构的随机初始化神经网络在网络宽度趋于无穷大时,都会使其 Tangent Kerne(NTK)收敛于确定性极限,并介绍了如何计算此极限。文章还提到了梯度独立假设(GIA)的常见满足条件 ——Simple GIA Check,并探讨了 GIA 的适用范围和限制。最后,文中给出了基于无限宽度 NTK 的可重复实现的循环神经网络、Transformer 和批归一化等各类网络模型的代码。
Jun, 2020
该论文通过对神经网络和它们的线性近似在不同任务上的行为进行系统比较,提供了强有力的实证证据来确定近似的实际有效性,发现网络并不总是表现优于其核近似,并揭示了性能差距很大程度上取决于网络架构、数据集大小和训练任务。此外,研究发现网络在训练过程中出现过拟合的原因是其核的演化。由此揭示了一种新的隐式偏差现象。
Jun, 2021
本文从神经切向核角度研究了具有物理约束的神经网络的训练以及其训练过程中收敛率不同的 loss 组件,提出了一种利用 NTK 的特征值来自适应地校准误差收敛率的优化算法。
本文提出了一种改进的标准参数化方法,可以正确地在无限宽度的情况下捕捉到有限宽度网络的训练动态,同时保持所有属性,包括神经切线核,实验表明这种参数化方法通常可以达到与 NTK 参数化类似的精度,但更好地对应典型有限宽度网络的参数化。
Jan, 2020