快速有限宽度神经切向核

ICMLJun, 2022

Fast Finite Width Neural Tangent Kernel

Roman Novak, Jascha Sohl-Dickstein, Samuel S. Schoenholz

TL;DR通过分析神经网络结构，我们提出了两种改变有限宽度神经切向核计算量和内存要求指数的新算法，从而显著提高了效率。

Abstract

The neural tangent kernel (NTK), defined as $\Theta_\theta^f(x_1, x_2) = \left[\partial f(\theta, x_1)\big/\partial \theta\right] \left[\partial f(\theta, x_2)\big/\partial \theta\right]^T$ where $\left[\partial f(\theta, \cdot)\big/\partial \theta\right]$ is a neural network (NN) Jaco

neural tangent kernel nn jacobian finite width networks algorithm compute and memory requirements

发现论文，激发创造

深度和初始化对无限宽神经切向核的影响

本文研究了深度与宽度相当的全连接 ReLU 网络的神经切向核（Neural Tangent Kernel）及其性质，发现其性质取决于深度与宽度之比以及初始状态下参数分布的情况。结果表明，在超参数空间中，有序、混沌和混沌边缘三个阶段很重要。在混沌和混沌边缘阶段，NTK 可变性随着深度呈指数增长，但在有序阶段则不会，此外还展示了深度神经网络的 NTK 只有在有序阶段中才能在训练过程中保持恒定，并探讨了 NTK 矩阵在训练过程中的结构变化。

Feb, 2022

标准参数化神经网络的无限宽度极限

本文提出了一种改进的标准参数化方法，可以正确地在无限宽度的情况下捕捉到有限宽度网络的训练动态，同时保持所有属性，包括神经切线核，实验表明这种参数化方法通常可以达到与 NTK 参数化类似的精度，但更好地对应典型有限宽度网络的参数化。

Jan, 2020

深度神经网络和神经切向等级的动态

本文研究了有限宽度的深度全连接神经网络中神经切向核的动态，并推导出一个无穷层次的普通微分方程组，它捕捉了深层神经网络的梯度下降动态。此外，在条件限制下，研究证明了 NTH 的截断层次近似于 NTK 的动态。这些描述使直接研究深度神经网络的 NTK 的变化成为可能，同时也揭示了深度神经网络胜过相应极限 NTK 的内在原因。

Sep, 2019

神经切向核方法的神经网络修正

使用神经切比洛夫核方法，获得了网络训练误差上限、网络大小不变的泛化误差上限，以及一个简单且解析的核函数，能够优于相关网络，但需要注意网络缩放因子的问题。本文对原有方法进行修正，提出了更加严格的误差上限，解决了缩放问题。

Jul, 2020

神经切向核的有限深度和宽度修正

我们证明了在具有有限深度和宽度的随机初始化的 ReLU 网络中，神经切向核（NTK）的平均值和方差的精确缩放。

Sep, 2019

神经正切核：神经网络的收敛性和泛化性

本研究证明了在梯度下降算法中，人工神经网络的演化可以被表示为一种核函数，称为神经切向核。它在无限宽度下收敛于一个明确的极限核，并且在训练过程中保持不变，可以用函数空间而不是参数空间来研究人工神经网络的训练。我们关注最小二乘回归并表明，在无限宽度下，网络函数 $f_ heta$ 在训练期间遵循线性微分方程。最后，我们对神经切向核进行了数值研究，观察了其在宽网络中的行为，并将其与无限宽度的极限进行了比较。

Jun, 2018

张量程序 II：任意结构神经切向核

本文证明了任何结构的随机初始化神经网络在网络宽度趋于无穷大时，都会使其 Tangent Kerne（NTK）收敛于确定性极限，并介绍了如何计算此极限。文章还提到了梯度独立假设（GIA）的常见满足条件 ——Simple GIA Check，并探讨了 GIA 的适用范围和限制。最后，文中给出了基于无限宽度 NTK 的可重复实现的循环神经网络、Transformer 和批归一化等各类网络模型的代码。

Jun, 2020

Tensor Programs IIb: 神经切向核训练动态的架构通用性

通过 Tensor Programs 技术在 Tensor Program 中分析的 SGD 动态，我们证明了使用 NTK 参数化的相同神经网络在训练期间遵循功能空间中的内核梯度下降动态，其中内核是无穷宽度 NTK，从而完整证明了 NTK 行为的结构普适性。

May, 2021

通过草图和随机特征扩展神经切向核规模

该研究提出了一种近似算法，旨在加速使用神经切向核的大规模学习任务，并结合随机特征，通过谱逼近保证精度。实验结果表明，其线性回归器可在 CIFAR-10 数据集上达到与全精度模型相当的准确度，同时提高了 150 倍的速度。

Jun, 2021

深度学习中 NTK 在理解泛化方面的局限性

本文通过缩放定律的角度研究神经切向核 (NTK) 及其经验性变量，发现它们无法完全解释神经网络泛化的重要方面。通过实际设置，我们展示了有限宽度神经网络相对于其对应的经验和无穷 NTK 起始时具有显着更好的数据缩放指数，并证明了 NTK 方法在理解自然数据集上真实网络泛化的局限性。

Jun, 2022