修复 NTK:从神经网络线性化到精确的凸规划
使用神经切比洛夫核方法,获得了网络训练误差上限、网络大小不变的泛化误差上限,以及一个简单且解析的核函数,能够优于相关网络,但需要注意网络缩放因子的问题。本文对原有方法进行修正,提出了更加严格的误差上限,解决了缩放问题。
Jul, 2020
本研究证明了在梯度下降算法中,人工神经网络的演化可以被表示为一种核函数,称为神经切向核。它在无限宽度下收敛于一个明确的极限核,并且在训练过程中保持不变,可以用函数空间而不是参数空间来研究人工神经网络的训练。我们关注最小二乘回归并表明,在无限宽度下,网络函数 $f_ heta$ 在训练期间遵循线性微分方程。最后,我们对神经切向核进行了数值研究,观察了其在宽网络中的行为,并将其与无限宽度的极限进行了比较。
Jun, 2018
该研究通过神经切向核(NTK)模式下的梯度下降探讨了训练一层过度参数化的 ReLU 网络,其中网络的偏置被初始化为某个常量而不是零。该初始化的诱人好处是神经网络将可以在整个训练过程中保持稀疏激活,从而实现快速训练。结果表明,在稀疏化后,网络可以实现与密集网络一样快的收敛速度。其次,提供了宽度稀疏性的相关性,给出了一个稀疏性相关的 Rademacher 复杂度和泛化性能界限。最后,研究了极限 NTK 的最小特征值,发现可以使用可训练偏置来提高推广性。
Jan, 2023
通过研究神经切线核在代替有限宽度深度神经网络中的性能表现,揭示了核的正则性是性能的关键决定因素,从而提出了一种廉价改进深度神经网络准确性的方法。这一理论框架不仅为使用共轭核代替神经切线核提供了理论基础,而且揭示了不同近似方法的稳健性,为提高深度神经网络的准确性提供了建议。
Oct, 2023
通过研究多层前馈 ReLU 神经网络、交叉熵损失函数、核方法等工具,我们发现标准 l2 正则化器在实际应用中具有很大优越性,并且通过构造一个简单的 d 维数据集,我们证明了有正则化器的神经网络只需要 O (d) 的数据集就能训练成功,而对于无正则化器的 NTK 神经网络,则需要至少 Omega (d^2) 的数据才能训练成功。同时,我们还证明了无限宽度的两层神经网络能够通过有噪音的梯度下降优化正则化器,并且能够得到全局最优解。
Oct, 2018
该研究表明:(a) 在无穷宽度神经网络 (NNs) 上应用 l2 损失 (通过梯度下降法) 训练,并将学习率设置为无穷小,与 (b) 基于所谓的神经切向核 (NTK) 的核回归是相等的。在此基础上,对 NTK 进行高效计算的算法已被提出,表明 NTK 在低数据任务上表现良好。
Oct, 2019
本文通过对神经切向核的分析,提供深度 ReLU 网络 NTK 矩阵的最小特征值的紧密界限,考虑了有限和无限宽度的极端情况,研究了神经网络的内部特征矩阵的最小奇异值和输入输出特征映射的 Lipschitz 常数的上界。
Dec, 2020
这篇论文提出了两种适用于任意宽度、深度和拓扑结构的神经网络的模型及其训练方法,假设神经激活仅存在有限能量,并提出了一种基于矩阵核的神经网络的新颖表达器理论。其中,第一种模型是精确的且全局的模型,将神经网络看作是再生核 Banach 空间中的元素;第二种模型是精确的且局部的模型,将神经网络函数的变化建模为权重和偏差(即训练步骤)在再生核 Hilbert 空间中的局部内在神经核。该局部模型通过对网络自适应的 Rademacher 复杂度提供洞察力。此外,还证明了神经切向核 (NTK) 是局部内在神经核的一阶近似。最后,针对技术原因,本论文提出了一个准确的新颖表达器理论,用于层间神经网络在未正则化梯度下降的情况下进行训练,该理论基于局部外在神经核 (LeNK)。该表达器理论揭示了神经网络训练中高阶统计量的作用以及核演化对神经网络核模型的影响。在整篇论文中,使用前馈 ReLU 网络和残差网络 (ResNet) 作为说明性例子。
May, 2024