ICLROct, 2018

深度线性神经网络梯度下降的收敛分析

TL;DR本文研究在白化数据上,通过梯度下降来训练深度线性神经网络收敛到全局最优点的速度。当隐藏层数的维度不小于输入输出维度的最小值,并且初始化的权重矩阵大致平衡且初始损失小于任何秩缺失解时,可保证线性收敛。此外,在输出维度为 1 的情况下,即标量回归,这些条件是满足的,并且在随机初始化方案下具有恒定的概率达到全局最优解。