神经切向核的有限深度和宽度修正
本文研究了深度与宽度相当的全连接 ReLU 网络的神经切向核(Neural Tangent Kernel)及其性质,发现其性质取决于深度与宽度之比以及初始状态下参数分布的情况。结果表明,在超参数空间中,有序、混沌和混沌边缘三个阶段很重要。在混沌和混沌边缘阶段,NTK 可变性随着深度呈指数增长,但在有序阶段则不会,此外还展示了深度神经网络的 NTK 只有在有序阶段中才能在训练过程中保持恒定,并探讨了 NTK 矩阵在训练过程中的结构变化。
Feb, 2022
本文提出了一种改进的标准参数化方法,可以正确地在无限宽度的情况下捕捉到有限宽度网络的训练动态,同时保持所有属性,包括神经切线核,实验表明这种参数化方法通常可以达到与 NTK 参数化类似的精度,但更好地对应典型有限宽度网络的参数化。
Jan, 2020
本文研究了有限宽度的深度全连接神经网络中神经切向核的动态,并推导出一个无穷层次的普通微分方程组,它捕捉了深层神经网络的梯度下降动态。此外,在条件限制下,研究证明了 NTH 的截断层次近似于 NTK 的动态。这些描述使直接研究深度神经网络的 NTK 的变化成为可能,同时也揭示了深度神经网络胜过相应极限 NTK 的内在原因。
Sep, 2019
本文研究了深度神经网络的泛化能力问题,探讨了其与神经切向核回归的关系,并分析了核的谱性质,得出了多层宽神经网络使用梯度下降等算法在早期停止时能够获得最佳性能的结论。
May, 2023
本文通过对神经切向核的分析,提供深度 ReLU 网络 NTK 矩阵的最小特征值的紧密界限,考虑了有限和无限宽度的极端情况,研究了神经网络的内部特征矩阵的最小奇异值和输入输出特征映射的 Lipschitz 常数的上界。
Dec, 2020
使用神经切比洛夫核方法,获得了网络训练误差上限、网络大小不变的泛化误差上限,以及一个简单且解析的核函数,能够优于相关网络,但需要注意网络缩放因子的问题。本文对原有方法进行修正,提出了更加严格的误差上限,解决了缩放问题。
Jul, 2020
该研究通过神经切向核(NTK)模式下的梯度下降探讨了训练一层过度参数化的 ReLU 网络,其中网络的偏置被初始化为某个常量而不是零。该初始化的诱人好处是神经网络将可以在整个训练过程中保持稀疏激活,从而实现快速训练。结果表明,在稀疏化后,网络可以实现与密集网络一样快的收敛速度。其次,提供了宽度稀疏性的相关性,给出了一个稀疏性相关的 Rademacher 复杂度和泛化性能界限。最后,研究了极限 NTK 的最小特征值,发现可以使用可训练偏置来提高推广性。
Jan, 2023
研究了有限宽度效应及特征学习在神经网络中的动力学特性,通过动力学平均场理论描述了无穷宽深度神经网络内核和预测动力学,并证明了特征学习可以降低终极 NTK 和终极网络预测的方差。
Apr, 2023