Sep, 2022

神经网络使用SGD高效地学习低维表示

TL;DR本文研究了使用随机梯度下降(SGD)训练任意宽度的两层神经网络(NN),其中输入x是高斯分布的,目标y遵循多指数模型,并证明了当基于SGD和权重衰减进行训练时,NN的第一层权重将收敛于真实模型的向量u1,...,uk所张成的k维主子空间,从而建立了一个独立于NN宽度的一般化误差边界,并进一步证明了,使用SGD训练的ReLU NNs可以通过恢复主方向来学习单指标目标,其样本复杂度与d成线性关系,而不是通过核区域中的任何p次多项式的已知d奥米(p)样本要求,这表明在初始化时使用SGD训练的NNs可以胜过神经切向核。