Nov, 2023
无正则项梯度下降学得的过参数化深度神经网络估计的$L_2$误差分析
Analysis of the expected $L_2$ error of an over-parametrized deep neural
network estimate learned by gradient descent without regularization
TL;DR通过合适的初始化、梯度下降步数和步长选择,在深度神经网络中无需正则化项,可以达到普适的一致性和收敛速度,而且对于有界预测变量,$L_2$误差收敛速度约为$n^{-1/(1+d)}$,对于交互模型,收敛速度与输入维度$d$无关。