Jan, 2019

深度网络的泛化:与起始点距离的作用

TL;DR本文研究了使用随机梯度下降(SGD)训练深度神经网络为什么会导致泛化误差不随网络参数数量恶化的问题,并提出一种基于给定随机初始化的有效模型容量的概念。作者通过实验证明了 SGD 训练的深度网络的模型容量实际上受限于从初始化开始的 L2 距离的隐式正则化,并提供理论论证来进一步强调了初始化相关的模型容量概念的必要性。然而此文留下了如何以及为什么对初始化距离进行正则化,以及它是否足以解释泛化的问题。