梯度下降如何学习特征 - 正则化双层神经网络的局部分析

Jun, 2024

梯度下降如何学习特征 - 正则化双层神经网络的局部分析

How Does Gradient Descent Learn Features -- A Local Analysis for Regularized Two-Layer Neural Networks

Mo Zhou, Rong Ge

TL;DR通过本地收敛分析，该论文展示了梯度下降通过精心正则化的目标函数在损失降至一定阈值以下后能够捕捉到真实方向，从而证明了特征学习不仅发生在初始梯度步骤，也可能发生在训练结束时。

Abstract

The ability of learning useful features is one of the major advantages of neural networks. Although recent works show that neural network can operate in a neural tangent kernel (NTK) regime that does not allow

neural networks feature learning neural tangent kernel gradient descent local convergence analysis

发现论文，激发创造

神经网络通过梯度特征学习的可证实保证

神经网络理论分析不足，该研究提出了一个基于梯度的特征学习分析框架，应用于混合高斯函数和奇偶函数等问题，并揭示了网络学习现象与特征学习的关系。

Oct, 2023

两层神经网络中一次梯度步骤的非线性特征学习理论

通过分析两层全连接神经网络中梯度下降和岭回归的步骤，证明采用学习率随样本大小增长的训练方法可以引入多个一阶秩分量，分别对应特定的多项式特征，进而改善神经网络的学习效果。

Oct, 2023

神经网络中带全局收敛保证的特征学习

该研究通过梯度流优化模型，研究宽神经网络中的特征学习和训练损失收敛问题，证明了一定条件下训练损失会以线性速率收敛于零，并展示了该模型的学习特性和推广能力。

Apr, 2022

两层神经网络和随机特征模型在梯度下降动态下优化和泛化属性的比较分析

本研究对二层神经网络模型的梯度下降动态进行了较全面的分析，并考虑了在更新两个层的参数时，一般的初始化方案以及网络宽度和训练数据大小的一般方案。在过度参数化的情况下，梯度下降动态可以快速地达到零训练损失，无论标签的质量如何。此外，证明了神经网络模型所表示的函数始终与核方法的函数保持一致。对于网络宽度和训练数据大小的一般值，建立了适当的再生核 Hilbert 空间的目标函数的尖锐估计。

Apr, 2019

正则化的重要性：神经网络的泛化和优化与其引导的核函数

通过研究多层前馈 ReLU 神经网络、交叉熵损失函数、核方法等工具，我们发现标准 l2 正则化器在实际应用中具有很大优越性，并且通过构造一个简单的 d 维数据集，我们证明了有正则化器的神经网络只需要 O (d) 的数据集就能训练成功，而对于无正则化器的 NTK 神经网络，则需要至少 Omega (d^2) 的数据才能训练成功。同时，我们还证明了无限宽度的两层神经网络能够通过有噪音的梯度下降优化正则化器，并且能够得到全局最优解。

Oct, 2018

神经网络可以使用梯度下降学习表示

本研究揭示了神经网络在训练表示学习和迁移学习方面的优势，并通过学习与目标任务相关的表示来说明为什么在实践中神经网络明显优于与之相关的核方法。

Jun, 2022

神经网络的近似和梯度下降训练

通过研究使用神经切向核（NTK）优化方法来训练的网络，本文对使用梯度下降训练的网络建立了类似的结果，以扩展逼近结果的平滑性，从而显示了这两种理论的兼容性。

May, 2024

神经网络的自适应切线特征视角

为了更好地理解神经网络中的特征学习，我们提出了一个在切线特征空间中理解线性模型的框架，其中特征在训练过程中被允许进行转换。我们考虑特征的线性变换，得到了一个在参数和变换上具有双线性插值约束的联合优化问题。我们证明了这个优化问题等价于一个线性约束优化问题，具有结构化正则化，鼓励近似低秩解。通过专门研究神经网络结构，我们深入了解了特征和核函数如何变化，为当目标函数使用切线特征很难表示时的核对齐现象提供了额外的细微差别。除了在一个简单的回归问题上验证我们的理论观察之外，我们还通过实验证明，在 MNIST 和 CIFAR-10 上，切线特征分类的自适应特征实现的样本复杂性比固定切线特征模型低一个数量级。

Aug, 2023

神经网络中的特征提取机制揭示

我们提出了一种基于神经切向核函数（NTKs）的理论方法来研究神经网络在捕捉精确知识方面的潜在机制，并发现激活函数的选择会影响特征提取，此外我们还发现自注意力模型和 CNN 模型在学习 n 元语法方面的局限性，而基于乘法的模型则在该领域表现出色。我们的研究提供了对大型语言模型基本组件在角色和能力方面的深入理解，从而推动对这些复杂系统的更广泛理解。

Oct, 2023

一次梯度下降后两层网络中特征学习的渐近性

通过连接非线性尖峰矩阵模型和高斯普遍性的最新进展，我们确切描述了两层神经网络在高维极限中的泛化误差，其中样本数 (n)、宽度 (p) 和输入维度 (d) 以相同的速度增长，同时阐明了数据适应对网络在梯度方向高效学习非线性函数的重要性，而在初始化阶段只能表示线性函数。据我们所知，我们的结果是首次对两层神经网络在大学习率区间 (η=Θ_d (d)) 中的特征学习对泛化的影响进行严格描述，超越了共轭核和神经切向核的微扰有限宽度修正。

Feb, 2024