ICMLApr, 2019

神经网络过度参数化对梯度混乱和随机梯度下降的影响

TL;DR本文研究神经网络架构如何影响训练速度,引入 “梯度混乱” 概念来分析。实验结果表明,增加神经网络宽度可以降低梯度混乱从而提高模型训练效率,而增加深度则会使训练效率降低。