关于超参数神经网络理论与实践之间的脱节

Sep, 2023

关于超参数神经网络理论与实践之间的脱节

On the Disconnect Between Theory and Practice of Overparametrized Neural Networks

Jonathan Wenger, Felix Dangel, Agustinus Kristiadi

TL;DR通过对无限宽度极限进行实证研究，我们的结果表明：无限宽度极限理论不适用于实际的优化、不确定性量化和持续学习问题，进而对于无限宽度极限的实际相关性提出了质疑。

Abstract

The infinite-width limit of neural networks (NNs) has garnered significant attention as a theoretical framework for analyzing the behavior of large-scale, overparametrized networks. By approaching infinite width,

infinite-width limit neural networks neural tangent kernel optimization practical relevance

发现论文，激发创造

有限与无限神经网络：一项实证研究

通过实验证明了核方法优于限制宽度的全连接神经网络，并且证实 NNGP 内核经常优于 NT 内核，但它们的性能都受到正则化的影响。此外，作者提出了使用 NNGP 和 NT 内核进行预测的最佳实践方法，并在 CIFAR-10 分类任务中取得了最优结果。

Jul, 2020

神经分类器无限宽度极限的一般理论探讨

本文提出一个新的框架，将两种不同的神经网络极限理论联系起来，并证明在有限宽度的情况下，离散时间均场极限比常数核极限更有效。

Mar, 2020

深度和初始化对无限宽神经切向核的影响

本文研究了深度与宽度相当的全连接 ReLU 网络的神经切向核（Neural Tangent Kernel）及其性质，发现其性质取决于深度与宽度之比以及初始状态下参数分布的情况。结果表明，在超参数空间中，有序、混沌和混沌边缘三个阶段很重要。在混沌和混沌边缘阶段，NTK 可变性随着深度呈指数增长，但在有序阶段则不会，此外还展示了深度神经网络的 NTK 只有在有序阶段中才能在训练过程中保持恒定，并探讨了 NTK 矩阵在训练过程中的结构变化。

Feb, 2022

标准参数化神经网络的无限宽度极限

本文提出了一种改进的标准参数化方法，可以正确地在无限宽度的情况下捕捉到有限宽度网络的训练动态，同时保持所有属性，包括神经切线核，实验表明这种参数化方法通常可以达到与 NTK 参数化类似的精度，但更好地对应典型有限宽度网络的参数化。

Jan, 2020

无限宽神经网络中的特征学习

研究表明，标准和 NTK 参数化的神经网络不能学习特征，这对于预训练和转移学习至关重要。通过修改标准参数化，使用 Tensor Programs 技术，我们计算了神经网络的极限，并发现其表现优于 NTK 基线和有限宽网络。

Nov, 2020

无限宽神经网络的精确计算

本篇研究开发了第一个高效精准计算卷积神经网络中神经切向核（NTK）扩展，即卷积 NTK（CNTK），并使用 GPU 实现，相较于其他方法在 CIFAR-10 上表现出明显优势，仅比与之对应的有限深度网络结构低 6%；同时，提供了第一个非渐近证明，表明当训练具有足够宽度的深度网络时，其与使用 NTK 的核回归预测器等效。

Apr, 2019

宽神经网络：从非高斯随机场的初始化到 NTK 训练几何

本文研究了具有大规模参数的人工神经网络，并探究了正态性的校正、宽神经网络的演化控制、与高概率训练的全局最小值等。

Apr, 2023

利用无限宽深度神经网络在小数据任务中的能力

该研究表明：(a) 在无穷宽度神经网络 (NNs) 上应用 l2 损失 (通过梯度下降法) 训练，并将学习率设置为无穷小，与 (b) 基于所谓的神经切向核 (NTK) 的核回归是相等的。在此基础上，对 NTK 进行高效计算的算法已被提出，表明 NTK 在低数据任务上表现良好。

Oct, 2019

超越线性化：关于宽神经网络的二次及高阶逼近

该研究探讨了超参数化神经网络的训练，通过随机化神经网络，使其模型不再受限于 NTK，允许其与二次模型进行耦合，并且证明了产生的随机网络的优化具有良好的局面性态，且样本复杂度与 NTK 相匹配，同时在分布特定条件下可更为优秀。

Oct, 2019

深度神经网络和神经切向等级的动态

本文研究了有限宽度的深度全连接神经网络中神经切向核的动态，并推导出一个无穷层次的普通微分方程组，它捕捉了深层神经网络的梯度下降动态。此外，在条件限制下，研究证明了 NTH 的截断层次近似于 NTK 的动态。这些描述使直接研究深度神经网络的 NTK 的变化成为可能，同时也揭示了深度神经网络胜过相应极限 NTK 的内在原因。

Sep, 2019