Nov, 2023

无正则项梯度下降学得的过参数化深度神经网络估计的 $L_2$ 误差分析

TL;DR通过合适的初始化、梯度下降步数和步长选择,在深度神经网络中无需正则化项,可以达到普适的一致性和收敛速度,而且对于有界预测变量,$L_2$ 误差收敛速度约为 $n^{-1/(1+d)}$,对于交互模型,收敛速度与输入维度 $d$ 无关。