Nov, 2023

无正则项梯度下降学得的过参数化深度神经网络估计的$L_2$误差分析

TL;DR通过合适的初始化、梯度下降步数和步长选择,在深度神经网络中无需正则化项,可以达到普适的一致性和收敛速度,而且对于有界预测变量,$L_2$误差收敛速度约为$n^{-1/(1+d)}$,对于交互模型,收敛速度与输入维度$d$无关。