一次梯度下降后两层网络中特征学习的渐近性

Feb, 2024

一次梯度下降后两层网络中特征学习的渐近性

Asymptotics of feature learning in two-layer networks after one gradient-step

Hugo Cui, Luca Pesce, Yatin Dandi, Florent Krzakala, Yue M. Lu...

TL;DR通过连接非线性尖峰矩阵模型和高斯普遍性的最新进展，我们确切描述了两层神经网络在高维极限中的泛化误差，其中样本数 (n)、宽度 (p) 和输入维度 (d) 以相同的速度增长，同时阐明了数据适应对网络在梯度方向高效学习非线性函数的重要性，而在初始化阶段只能表示线性函数。据我们所知，我们的结果是首次对两层神经网络在大学习率区间 (η=Θ_d (d)) 中的特征学习对泛化的影响进行严格描述，超越了共轭核和神经切向核的微扰有限宽度修正。

Abstract

In this manuscript we investigate the problem of how two-layer neural networks learn features from data, and improve over the kernel regime, after being trained with a single gradient descent step. Leveraging a connection from (Ba et al., 2022) with a non-linear spiked matrix model and recent progress on Gaussian universality (Dandi et al., 2023), we provide

two-layer neural networks feature learning generalization error non-linear functions large learning rate regime

发现论文，激发创造

特征学习的高维渐近性：一个梯度步骤如何改善表示

研究两层神经网络中第一梯度下降步骤，证明第一梯度更新中存在一个秩为 1 的 “峰值”，可以使第一层权重与教师模型的线性部分对其，并探索学习率对特征的影响，得出即使一步梯度下降也能带来显著优势的结论。

May, 2022

两层神经网络中一次梯度步骤的非线性特征学习理论

通过分析两层全连接神经网络中梯度下降和岭回归的步骤，证明采用学习率随样本大小增长的训练方法可以引入多个一阶秩分量，分别对应特定的多项式特征，进而改善神经网络的学习效果。

Oct, 2023

两层神经网络和随机特征模型在梯度下降动态下优化和泛化属性的比较分析

本研究对二层神经网络模型的梯度下降动态进行了较全面的分析，并考虑了在更新两个层的参数时，一般的初始化方案以及网络宽度和训练数据大小的一般方案。在过度参数化的情况下，梯度下降动态可以快速地达到零训练损失，无论标签的质量如何。此外，证明了神经网络模型所表示的函数始终与核方法的函数保持一致。对于网络宽度和训练数据大小的一般值，建立了适当的再生核 Hilbert 空间的目标函数的尖锐估计。

Apr, 2019

随机特征回归的泛化误差：精确渐近性和双下降曲线

本文考虑使用随机特征空间，在测度无限趋近于无限，特征维度和样本量趋近于无穷大的情况下，利用结果回归模型和双下降现象等关键词解释深度学习模型中的奇妙现象。

Aug, 2019

三层神经网络非线性特征学习的可证明保证

本文研究了三层神经网络在特征学习方面的优势，证明了其比两层神经网络具有更丰富的特征学习能力，并提出了一个通用的定理，以限定实现低测试误差所需的样本复杂度和宽度。

May, 2023

深度结构（随机）特征的学习渐近性

我们提供了一种针对大类特征映射的紧密渐近特征错误的表征，其中输入维度、隐藏层宽度和训练样本数在高维极限下成比例增加。我们的工作部分是受到了学习具有高斯彩虹神经网络的问题的启发，即具有随机但结构化权重的深层非线性全连接网络，它们的行协方差进一步允许依赖于前层的权重。对于这样的网络，我们还推导了一种以权重矩阵为基础的特征协方差的闭合形式公式。我们进一步发现，在某些情况下，我们的结果能够捕捉到通过梯度下降训练的深度有限宽度神经网络学得的特征映射。

Feb, 2024

高维线性化双层神经网络

本论文研究了在球面上进行方差损失下的未知函数 f * 的学习问题，并研究了神经切向核模型和 Rahimi-Recht 的随机特征模型等两种流行的模型，以及核岭回归。同时，论文探讨了样本数量有限或由于关于度数和样本数的适当估计而未能实现最优化性能时的情况，以及核方法随机选取核函数时的情况。

Apr, 2019

神经网络的泛化误差的高维动态

本文通过随机矩阵理论和线性模型中的准确解，研究了使用梯度下降训练的大型神经网络的泛化动态，发现梯度下降学习的动态自然地保护了大型网络免受过度训练和过拟合的影响，当自由参数的有效数量等于样本数量时，网络过度训练最严重，大小的适当调整可以减少网络过度训练，另外，高维域下，低泛化误差需要从小的初始权重开始。此外，本文还发现了两个新的现象：在梯度下降过程中存在一个冻结的权重子空间，而高维状态的统计特性可保护免受过度训练的影响。

Oct, 2017

使用逻辑损失训练的宽两层神经网络的梯度下降的隐含偏见

分析了具有同质性激活函数的两层神经网络在无限宽的情况下的训练和泛化行为，并表明在存在低维结构的情况下，梯度流的极限可以完全表征为某些函数空间中的最大间隔分类器，并且具有强的泛化边界，在实践中符合两层神经网络的行为，并证明了其隐式偏差的统计优点。

Feb, 2020

神经网络中带全局收敛保证的特征学习

该研究通过梯度流优化模型，研究宽神经网络中的特征学习和训练损失收敛问题，证明了一定条件下训练损失会以线性速率收敛于零，并展示了该模型的学习特性和推广能力。

Apr, 2022