无限宽度模型的有效性：为什么特征学习不如你想象的那样重要

Jun, 2024

无限宽度模型的有效性：为什么特征学习不如你想象的那样重要

Infinite Width Models That Work: Why Feature Learning Doesn't Matter as Much as You Think

Luke Sernau

TL;DR无限宽度架构，如神经切向核 (NTK) 在过去显示出与有限模型相比较弱的性能。我们证明这并非如此，实际上，我们展示无限宽度的 NTK 模型能够通过从无限特征向量中选择相关子特征来访问更丰富的特征。事实上，我们实验性地表明，即使在关闭特征学习的情况下，NTK 仍不如传统的有限模型性能好。相反，性能不佳是因为现有的构造依赖于像 SGD 这样的弱优化器。我们提供了基于类似于 ADAM 的学习动力学的无限宽度极限，并通过实验证明生成的模型消除了性能差距。

Abstract

Common infinite-width architectures such as neural tangent kernels (NTKs) have historically shown weak performance compared to finite models

infinite-width architectures neural tangent kernels feature learning finite models adam-like learning dynamics

发现论文，激发创造

无限宽神经网络中的特征学习

研究表明，标准和 NTK 参数化的神经网络不能学习特征，这对于预训练和转移学习至关重要。通过修改标准参数化，使用 Tensor Programs 技术，我们计算了神经网络的极限，并发现其表现优于 NTK 基线和有限宽网络。

Nov, 2020

关于超参数神经网络理论与实践之间的脱节

通过对无限宽度极限进行实证研究，我们的结果表明：无限宽度极限理论不适用于实际的优化、不确定性量化和持续学习问题，进而对于无限宽度极限的实际相关性提出了质疑。

Sep, 2023

利用无限宽深度神经网络在小数据任务中的能力

该研究表明：(a) 在无穷宽度神经网络 (NNs) 上应用 l2 损失 (通过梯度下降法) 训练，并将学习率设置为无穷小，与 (b) 基于所谓的神经切向核 (NTK) 的核回归是相等的。在此基础上，对 NTK 进行高效计算的算法已被提出，表明 NTK 在低数据任务上表现良好。

Oct, 2019

有限与无限神经网络：一项实证研究

通过实验证明了核方法优于限制宽度的全连接神经网络，并且证实 NNGP 内核经常优于 NT 内核，但它们的性能都受到正则化的影响。此外，作者提出了使用 NNGP 和 NT 内核进行预测的最佳实践方法，并在 CIFAR-10 分类任务中取得了最优结果。

Jul, 2020

无限宽神经网络的精确计算

本篇研究开发了第一个高效精准计算卷积神经网络中神经切向核（NTK）扩展，即卷积 NTK（CNTK），并使用 GPU 实现，相较于其他方法在 CIFAR-10 上表现出明显优势，仅比与之对应的有限深度网络结构低 6%；同时，提供了第一个非渐近证明，表明当训练具有足够宽度的深度网络时，其与使用 NTK 的核回归预测器等效。

Apr, 2019

标准参数化神经网络的无限宽度极限

本文提出了一种改进的标准参数化方法，可以正确地在无限宽度的情况下捕捉到有限宽度网络的训练动态，同时保持所有属性，包括神经切线核，实验表明这种参数化方法通常可以达到与 NTK 参数化类似的精度，但更好地对应典型有限宽度网络的参数化。

Jan, 2020

特征学习网络在现实规模下的宽度一致性

研究神经网络的宽度对特征学习动态的影响，探究网络结构，内部表示，预激活分布，稳定现象的一致性，以及相应的有限宽度偏差和频谱视角。

May, 2023

神经分类器无限宽度极限的一般理论探讨

本文提出一个新的框架，将两种不同的神经网络极限理论联系起来，并证明在有限宽度的情况下，离散时间均场极限比常数核极限更有效。

Mar, 2020

Tensor Programs IIb: 神经切向核训练动态的架构通用性

通过 Tensor Programs 技术在 Tensor Program 中分析的 SGD 动态，我们证明了使用 NTK 参数化的相同神经网络在训练期间遵循功能空间中的内核梯度下降动态，其中内核是无穷宽度 NTK，从而完整证明了 NTK 行为的结构普适性。

May, 2021

深度和初始化对无限宽神经切向核的影响

本文研究了深度与宽度相当的全连接 ReLU 网络的神经切向核（Neural Tangent Kernel）及其性质，发现其性质取决于深度与宽度之比以及初始状态下参数分布的情况。结果表明，在超参数空间中，有序、混沌和混沌边缘三个阶段很重要。在混沌和混沌边缘阶段，NTK 可变性随着深度呈指数增长，但在有序阶段则不会，此外还展示了深度神经网络的 NTK 只有在有序阶段中才能在训练过程中保持恒定，并探讨了 NTK 矩阵在训练过程中的结构变化。

Feb, 2022