神经网络早期学习动力学的出乎意料的简单性

Jun, 2020

神经网络早期学习动力学的出乎意料的简单性

The Surprising Simplicity of the Early-Time Learning Dynamics of Neural Networks

Wei Hu, Lechao Xiao, Ben Adlam, Jeffrey Pennington

TL;DR本文证明，对于一类良好行为的输入分布，一个双层全连接神经网络的早期学习动态可以通过在输入上训练简单的线性模型来模仿。关键在于通过约束初始时的神经切向核（NTK）和数据核的仿射变换之间的谱范数差异来赋值。我们还表明，这种令人惊讶的简单性可以在更多层和具有卷积结构的网络中持续存在，验证了这一点。

Abstract

Modern neural networks are often regarded as complex black-box functions whose behavior is difficult to understand owing to their nonlinear dependence on the data and the nonconvexity in their loss landscapes. In this work, we show that these common perceptions can be completely false

neural networks learning dynamics linear model ntk input distributions

发现论文，激发创造

深度学习与核学习：损失函数梯度与神经切向核的时间演变的实证研究

在深度神经网络训练中，训练动力学与损失面的几何形态和时空变化紧密关联，揭示了深度学习过程中快速的混沌瞬变和稳定状态之间的显著关系。

Oct, 2020

线性化神经网络在泛化方面的实际表现

该论文通过对神经网络和它们的线性近似在不同任务上的行为进行系统比较，提供了强有力的实证证据来确定近似的实际有效性，发现网络并不总是表现优于其核近似，并揭示了性能差距很大程度上取决于网络架构、数据集大小和训练任务。此外，研究发现网络在训练过程中出现过拟合的原因是其核的演化。由此揭示了一种新的隐式偏差现象。

Jun, 2021

神经（正切核）崩塌

本研究介绍了神经切比雪夫核（NTK）和神经塌缩（NC）现象对深度神经网络（DNN）训练的影响，提出了经验 NTK 应发展为与类标签对齐的块状结构，分析了 DNN 的动态并证明了块状 NTK 中存在 NC 现象。通过数值实验验证了理论的正确性。

May, 2023

连接 NTK 和 NNGP：核区域中神经网络学习动力学的统一理论框架

通过使用具有随机初始化的无限宽度深度网络集合的马尔可夫接近学习模型，结合数值评估来合并和统一神经切向核（NTK）和神经网络高斯过程（NNGP）理论，并提供对机器学习中深度神经网络学习过程的全面理解。

Sep, 2023

深度神经网络和神经切向等级的动态

本文研究了有限宽度的深度全连接神经网络中神经切向核的动态，并推导出一个无穷层次的普通微分方程组，它捕捉了深层神经网络的梯度下降动态。此外，在条件限制下，研究证明了 NTH 的截断层次近似于 NTK 的动态。这些描述使直接研究深度神经网络的 NTK 的变化成为可能，同时也揭示了深度神经网络胜过相应极限 NTK 的内在原因。

Sep, 2019

神经频谱对齐：实证研究

本文通过对神经网络优化过程中的经验性探索，发现神经切向核（NTK）在实际应用中会随着优化而发生重要的和有意义的变化，尤其是它的前几个特征向量会朝向神经网络所学习的目标函数，并成为神经网络输出的基础函数

Oct, 2019

神经网络中对非均匀密度输入的频率偏差

本文使用神经切向核（NTK）模型研究变量密度对训练动态的影响，结果表明在学习频率为 k 的纯谐波函数时，对于数据在 S^1 上，收敛点 x 的时间复杂度为 O (k^d/p (x))，其中 p (x) 表示 x 处的局部密度。

Mar, 2020

深度神经网络中可训练性和泛化能力的分离

本文通过分析神经核算法的光谱，提供了对于训练和推广条件的表征，特别地，在讨论极深和宽的神经网络时，发现神经核数仅仅维持有限的数据相关性，并考虑各种网络模型在很大的超参数空间区域内训练集过度拟合而且通常无法推广；同时，与深度神经网络及其卷积形式的全局平均池化相关的理论和实验结果得到了分析。

Dec, 2019

神经切向核方法的神经网络修正

使用神经切比洛夫核方法，获得了网络训练误差上限、网络大小不变的泛化误差上限，以及一个简单且解析的核函数，能够优于相关网络，但需要注意网络缩放因子的问题。本文对原有方法进行修正，提出了更加严格的误差上限，解决了缩放问题。

Jul, 2020

学习网络的权重动态

使用局部稳定性分析的数学框架，我们研究了前馈神经网络学习动力学的深层理解，推导了三层神经网络在学习回归任务时的切线算子方程，结果适用于任意节点数和任意激活函数的选择。我们通过数值方法应用这些结果于网络学习回归任务中，调查了稳定性指标与最终训练损失之间的关系。虽然具体结果会因初始条件和激活函数的不同而有所变化，我们证明了通过监测训练过程中的有限时间 Lyapunov 指数或协变 Lyapunov 向量，可以预测最终的训练损失。

Apr, 2024