Feb, 2024

一次梯度下降后两层网络中特征学习的渐近性

TL;DR通过连接非线性尖峰矩阵模型和高斯普遍性的最新进展,我们确切描述了两层神经网络在高维极限中的泛化误差,其中样本数 (n)、宽度 (p) 和输入维度 (d) 以相同的速度增长,同时阐明了数据适应对网络在梯度方向高效学习非线性函数的重要性,而在初始化阶段只能表示线性函数。据我们所知,我们的结果是首次对两层神经网络在大学习率区间 (η=Θ_d (d)) 中的特征学习对泛化的影响进行严格描述,超越了共轭核和神经切向核的微扰有限宽度修正。