Oct, 2017

神经网络的泛化误差的高维动态

TL;DR本文通过随机矩阵理论和线性模型中的准确解,研究了使用梯度下降训练的大型神经网络的泛化动态,发现梯度下降学习的动态自然地保护了大型网络免受过度训练和过拟合的影响,当自由参数的有效数量等于样本数量时,网络过度训练最严重,大小的适当调整可以减少网络过度训练,另外,高维域下,低泛化误差需要从小的初始权重开始。此外,本文还发现了两个新的现象:在梯度下降过程中存在一个冻结的权重子空间,而高维状态的统计特性可保护免受过度训练的影响。