梯度下降如何学习特征 - 正则化双层神经网络的局部分析
通过分析两层全连接神经网络中梯度下降和岭回归的步骤,证明采用学习率随样本大小增长的训练方法可以引入多个一阶秩分量,分别对应特定的多项式特征,进而改善神经网络的学习效果。
Oct, 2023
该研究通过梯度流优化模型,研究宽神经网络中的特征学习和训练损失收敛问题,证明了一定条件下训练损失会以线性速率收敛于零,并展示了该模型的学习特性和推广能力。
Apr, 2022
本研究 对二层神经网络模型的梯度下降动态进行了较全面的分析,并考虑了在更新两个层的参数时,一般的初始化方案以及网络宽度和训练数据大小的一般方案。在过度参数化的情况下,梯度下降动态可以快速地达到零训练损失,无论标签的质量如何。此外,证明了神经网络模型所表示的函数始终与核方法的函数保持一致。对于网络宽度和训练数据大小的一般值,建立了适当的再生核 Hilbert 空间的目标函数的尖锐估计。
Apr, 2019
通过研究多层前馈 ReLU 神经网络、交叉熵损失函数、核方法等工具,我们发现标准 l2 正则化器在实际应用中具有很大优越性,并且通过构造一个简单的 d 维数据集,我们证明了有正则化器的神经网络只需要 O (d) 的数据集就能训练成功,而对于无正则化器的 NTK 神经网络,则需要至少 Omega (d^2) 的数据才能训练成功。同时,我们还证明了无限宽度的两层神经网络能够通过有噪音的梯度下降优化正则化器,并且能够得到全局最优解。
Oct, 2018
通过研究使用神经切向核(NTK)优化方法来训练的网络,本文对使用梯度下降训练的网络建立了类似的结果,以扩展逼近结果的平滑性,从而显示了这两种理论的兼容性。
May, 2024
为了更好地理解神经网络中的特征学习,我们提出了一个在切线特征空间中理解线性模型的框架,其中特征在训练过程中被允许进行转换。我们考虑特征的线性变换,得到了一个在参数和变换上具有双线性插值约束的联合优化问题。我们证明了这个优化问题等价于一个线性约束优化问题,具有结构化正则化,鼓励近似低秩解。通过专门研究神经网络结构,我们深入了解了特征和核函数如何变化,为当目标函数使用切线特征很难表示时的核对齐现象提供了额外的细微差别。除了在一个简单的回归问题上验证我们的理论观察之外,我们还通过实验证明,在 MNIST 和 CIFAR-10 上,切线特征分类的自适应特征实现的样本复杂性比固定切线特征模型低一个数量级。
Aug, 2023
我们提出了一种基于神经切向核函数(NTKs)的理论方法来研究神经网络在捕捉精确知识方面的潜在机制,并发现激活函数的选择会影响特征提取,此外我们还发现自注意力模型和 CNN 模型在学习 n 元语法方面的局限性,而基于乘法的模型则在该领域表现出色。我们的研究提供了对大型语言模型基本组件在角色和能力方面的深入理解,从而推动对这些复杂系统的更广泛理解。
Oct, 2023
通过连接非线性尖峰矩阵模型和高斯普遍性的最新进展,我们确切描述了两层神经网络在高维极限中的泛化误差,其中样本数 (n)、宽度 (p) 和输入维度 (d) 以相同的速度增长,同时阐明了数据适应对网络在梯度方向高效学习非线性函数的重要性,而在初始化阶段只能表示线性函数。据我们所知,我们的结果是首次对两层神经网络在大学习率区间 (η=Θ_d (d)) 中的特征学习对泛化的影响进行严格描述,超越了共轭核和神经切向核的微扰有限宽度修正。
Feb, 2024