ICLRNov, 2016

深度学习中的 Hessian 矩阵特征值:奇异性与超出

TL;DR本文研究了损失函数的海森矩阵特征值在训练前后的分布情况,发现其主要由分布在零附近的 bulk 和分布远离零的 edges 两部分组成,bulk 部分实验证明了系统的超参数问题,而 edges 部分则与输入数据相关。