二层神经网络懒惰训练的局限性
本论文研究了在球面上进行方差损失下的未知函数 f * 的学习问题,并研究了神经切向核模型和 Rahimi-Recht 的随机特征模型等两种流行的模型,以及核岭回归。同时,论文探讨了样本数量有限或由于关于度数和样本数的适当估计而未能实现最优化性能时的情况,以及核方法随机选取核函数时的情况。
Apr, 2019
该论文针对深度学习的 Neural Tangent Kernel 极限和 Mean-Field 极限进行了研究,发现不同的调参可以使得网络在 lazy training 和 feature training 两种状态下表现不同,并提出了一种中间状态下集合平均方法可以提高性能。
Jun, 2019
本文探讨了二层 ReLU 神经网络梯度下降训练过程中的特征学习,研究了使用 XOR 函数生成的带标签二进制数据,对一定比例的训练标签的干扰具有影响。我们证明了线性分类器并不比随机猜测的效果更好,而使用梯度下降训练二层 ReLU 神经网络可以达到接近噪声率的泛化误差。我们提出了一种新的证明技术,证明了在初始化时,绝大多数神经元都具有随机特征的性质,与有用特征之间的相关性较弱,而梯度下降动态将这些弱随机特征 “放大” 为强有用特征。
Feb, 2022
本文研究了使用随机梯度下降(SGD)训练任意宽度的两层神经网络(NN),其中输入 x 是高斯分布的,目标 y 遵循多指数模型,并证明了当基于 SGD 和权重衰减进行训练时,NN 的第一层权重将收敛于真实模型的向量 u1,...,uk 所张成的 k 维主子空间,从而建立了一个独立于 NN 宽度的一般化误差边界,并进一步证明了,使用 SGD 训练的 ReLU NNs 可以通过恢复主方向来学习单指标目标,其样本复杂度与 d 成线性关系,而不是通过核区域中的任何 p 次多项式的已知 d 奥米(p)样本要求,这表明在初始化时使用 SGD 训练的 NNs 可以胜过神经切向核。
Sep, 2022
研究了两层神经网络中过参数化对学生 - 教师框架的影响,发现只有当学生的隐藏层数量指数级大于输入维度时,才能达到完美的泛化。同时计算了其渐进的泛化误差。
Mar, 2023
神经网络架构、随机初始化权重、神经网络高斯过程核、再生核希尔伯特空间、逼近误差是该研究论文的关键词,论文提出了一种在无限宽度限制下具有随机初始化权重的神经网络架构,它等价于一个具有高斯随机场协方差函数的神经网络高斯过程核,同时证明了该神经网络架构可以逼近由该核定义的再生核希尔伯特空间中的函数。实验结果验证了该理论发现的可行性。
Apr, 2024
通过连接非线性尖峰矩阵模型和高斯普遍性的最新进展,我们确切描述了两层神经网络在高维极限中的泛化误差,其中样本数 (n)、宽度 (p) 和输入维度 (d) 以相同的速度增长,同时阐明了数据适应对网络在梯度方向高效学习非线性函数的重要性,而在初始化阶段只能表示线性函数。据我们所知,我们的结果是首次对两层神经网络在大学习率区间 (η=Θ_d (d)) 中的特征学习对泛化的影响进行严格描述,超越了共轭核和神经切向核的微扰有限宽度修正。
Feb, 2024
研究表明:在一些简单的分类任务中,只有少数隐藏神经元的两层神经网络可以超越核学习的性能,这是因为两层神经网络在高维极限下能够实现非常优秀的表现,并且节点超参数数目过多并不能提高其表现。
Feb, 2021
现代机器学习范式的核心主题是更大的神经网络在各种度量指标上具有更好的性能。本文对这些过参数化模型的理论分析最近集中在研究非常宽的神经网络。我们通过一个非严格但富有说明性的推导,解释了以下事实:为了有效地训练宽网络,在选择学习率和初始权重大小等超参数上只有一个自由度。这个自由度控制训练行为的丰富性:宽网络至少以类似核机器的方式进行懒惰训练,最多则在所谓的 μP 区域表现出特征学习。本文解释了这种丰富性尺度,将最近的研究结果综合为一个连贯的整体,并提供支持我们的论点的实证证据。通过这样做,我们希望进一步研究丰富性尺度,因为它可能是发展实际深度神经网络特征学习的科学理论的关键。
Apr, 2024