Dec, 2018

梯度下降发生在一个极小的子空间中

TL;DR本文研究表明,在大规模深度学习场景中,梯度在短时间训练后动态地收敛到一个非常小的子空间。该子空间由海森矩阵的前几个特征向量构成,并在长时间训练中大部分保持不变。我们给出了一个分类问题可解模型的例子,并对此效应对优化和学习的潜在影响进行了评论。