无限宽神经网络中的特征学习

ICMLNov, 2020

Feature Learning in Infinite-Width Neural Networks

Greg Yang, Edward J. Hu

TL;DR研究表明，标准和 NTK 参数化的神经网络不能学习特征，这对于预训练和转移学习至关重要。通过修改标准参数化，使用 Tensor Programs 技术，我们计算了神经网络的极限，并发现其表现优于 NTK 基线和有限宽网络。

Abstract

As its width tends to infinity, a deep neural network's behavior under gradient descent can become simplified and predictable (e.g. given by the neural tangent kernel (NTK)), if it is parametrized appropriately (

deep neural network neural tangent kernel parametrization feature learning tensor programs

发现论文，激发创造

无限宽度模型的有效性：为什么特征学习不如你想象的那样重要

无限宽度架构，如神经切向核 (NTK) 在过去显示出与有限模型相比较弱的性能。我们证明这并非如此，实际上，我们展示无限宽度的 NTK 模型能够通过从无限特征向量中选择相关子特征来访问更丰富的特征。事实上，我们实验性地表明，即使在关闭特征学习的情况下，NTK 仍不如传统的有限模型性能好。相反，性能不佳是因为现有的构造依赖于像 SGD 这样的弱优化器。我们提供了基于类似于 ADAM 的学习动力学的无限宽度极限，并通过实验证明生成的模型消除了性能差距。

Jun, 2024

关于超参数神经网络理论与实践之间的脱节

通过对无限宽度极限进行实证研究，我们的结果表明：无限宽度极限理论不适用于实际的优化、不确定性量化和持续学习问题，进而对于无限宽度极限的实际相关性提出了质疑。

Sep, 2023

标准参数化神经网络的无限宽度极限

本文提出了一种改进的标准参数化方法，可以正确地在无限宽度的情况下捕捉到有限宽度网络的训练动态，同时保持所有属性，包括神经切线核，实验表明这种参数化方法通常可以达到与 NTK 参数化类似的精度，但更好地对应典型有限宽度网络的参数化。

Jan, 2020

神经分类器无限宽度极限的一般理论探讨

本文提出一个新的框架，将两种不同的神经网络极限理论联系起来，并证明在有限宽度的情况下，离散时间均场极限比常数核极限更有效。

Mar, 2020

Tensor Programs IIb: 神经切向核训练动态的架构通用性

通过 Tensor Programs 技术在 Tensor Program 中分析的 SGD 动态，我们证明了使用 NTK 参数化的相同神经网络在训练期间遵循功能空间中的内核梯度下降动态，其中内核是无穷宽度 NTK，从而完整证明了 NTK 行为的结构普适性。

May, 2021

宽神经网络：从非高斯随机场的初始化到 NTK 训练几何

本文研究了具有大规模参数的人工神经网络，并探究了正态性的校正、宽神经网络的演化控制、与高概率训练的全局最小值等。

Apr, 2023

有限与无限神经网络：一项实证研究

通过实验证明了核方法优于限制宽度的全连接神经网络，并且证实 NNGP 内核经常优于 NT 内核，但它们的性能都受到正则化的影响。此外，作者提出了使用 NNGP 和 NT 内核进行预测的最佳实践方法，并在 CIFAR-10 分类任务中取得了最优结果。

Jul, 2020

深度和初始化对无限宽神经切向核的影响

本文研究了深度与宽度相当的全连接 ReLU 网络的神经切向核（Neural Tangent Kernel）及其性质，发现其性质取决于深度与宽度之比以及初始状态下参数分布的情况。结果表明，在超参数空间中，有序、混沌和混沌边缘三个阶段很重要。在混沌和混沌边缘阶段，NTK 可变性随着深度呈指数增长，但在有序阶段则不会，此外还展示了深度神经网络的 NTK 只有在有序阶段中才能在训练过程中保持恒定，并探讨了 NTK 矩阵在训练过程中的结构变化。

Feb, 2022

神经切向核的有限深度和宽度修正

我们证明了在具有有限深度和宽度的随机初始化的 ReLU 网络中，神经切向核（NTK）的平均值和方差的精确缩放。

Sep, 2019

深度神经网络和神经切向等级的动态

本文研究了有限宽度的深度全连接神经网络中神经切向核的动态，并推导出一个无穷层次的普通微分方程组，它捕捉了深层神经网络的梯度下降动态。此外，在条件限制下，研究证明了 NTH 的截断层次近似于 NTK 的动态。这些描述使直接研究深度神经网络的 NTK 的变化成为可能，同时也揭示了深度神经网络胜过相应极限 NTK 的内在原因。

Sep, 2019