无限宽度架构,如神经切向核 (NTK) 在过去显示出与有限模型相比较弱的性能。我们证明这并非如此,实际上,我们展示无限宽度的 NTK 模型能够通过从无限特征向量中选择相关子特征来访问更丰富的特征。事实上,我们实验性地表明,即使在关闭特征学习的情况下,NTK 仍不如传统的有限模型性能好。相反,性能不佳是因为现有的构造依赖于像 SGD 这样的弱优化器。我们提供了基于类似于 ADAM 的学习动力学的无限宽度极限,并通过实验证明生成的模型消除了性能差距。
Jun, 2024
通过对无限宽度极限进行实证研究,我们的结果表明:无限宽度极限理论不适用于实际的优化、不确定性量化和持续学习问题,进而对于无限宽度极限的实际相关性提出了质疑。
Sep, 2023
本文提出了一种改进的标准参数化方法,可以正确地在无限宽度的情况下捕捉到有限宽度网络的训练动态,同时保持所有属性,包括神经切线核,实验表明这种参数化方法通常可以达到与 NTK 参数化类似的精度,但更好地对应典型有限宽度网络的参数化。
Jan, 2020
本文提出一个新的框架,将两种不同的神经网络极限理论联系起来,并证明在有限宽度的情况下,离散时间均场极限比常数核极限更有效。
Mar, 2020
通过 Tensor Programs 技术在 Tensor Program 中分析的 SGD 动态,我们证明了使用 NTK 参数化的相同神经网络在训练期间遵循功能空间中的内核梯度下降动态,其中内核是无穷宽度 NTK,从而完整证明了 NTK 行为的结构普适性。
May, 2021
本文研究了具有大规模参数的人工神经网络,并探究了正态性的校正、宽神经网络的演化控制、与高概率训练的全局最小值等。
Apr, 2023
通过实验证明了核方法优于限制宽度的全连接神经网络,并且证实 NNGP 内核经常优于 NT 内核,但它们的性能都受到正则化的影响。此外,作者提出了使用 NNGP 和 NT 内核进行预测的最佳实践方法,并在 CIFAR-10 分类任务中取得了最优结果。
Jul, 2020
本文研究了深度与宽度相当的全连接 ReLU 网络的神经切向核(Neural Tangent Kernel)及其性质,发现其性质取决于深度与宽度之比以及初始状态下参数分布的情况。结果表明,在超参数空间中,有序、混沌和混沌边缘三个阶段很重要。在混沌和混沌边缘阶段,NTK 可变性随着深度呈指数增长,但在有序阶段则不会,此外还展示了深度神经网络的 NTK 只有在有序阶段中才能在训练过程中保持恒定,并探讨了 NTK 矩阵在训练过程中的结构变化。
Feb, 2022
我们证明了在具有有限深度和宽度的随机初始化的 ReLU 网络中,神经切向核(NTK)的平均值和方差的精确缩放。
Sep, 2019
本文研究了有限宽度的深度全连接神经网络中神经切向核的动态,并推导出一个无穷层次的普通微分方程组,它捕捉了深层神经网络的梯度下降动态。此外,在条件限制下,研究证明了 NTH 的截断层次近似于 NTK 的动态。这些描述使直接研究深度神经网络的 NTK 的变化成为可能,同时也揭示了深度神经网络胜过相应极限 NTK 的内在原因。