ICMLApr, 2019
神经网络过度参数化对梯度混乱和随机梯度下降的影响
The Impact of Neural Network Overparameterization on Gradient Confusion and Stochastic Gradient Descent
Karthik A. Sankararaman, Soham De, Zheng Xu, W. Ronny Huang, Tom Goldstein
TL;DR本文研究神经网络架构如何影响训练速度,引入 “梯度混乱” 概念来分析。实验结果表明,增加神经网络宽度可以降低梯度混乱从而提高模型训练效率,而增加深度则会使训练效率降低。