BriefGPT.xyz
Ask
alpha
关键词
hessian eigenvectors
搜索结果 - 2
神经网络权重矩阵的 Hessian 特征向量和主成分分析
该研究探讨了训练深度神经网络及其与网络参数之间的复杂动力学关系。通过研究我们发现,训练网络往往沿着单一方向进行训练,被称为漂移模式。通过损失函数的二次势模型,我们解释了这种漂移模式,并提出其向潜在值的指数级缓慢衰减。我们揭示了 Hessia
→
PDF
8 months ago
梯度下降发生在一个极小的子空间中
本文研究表明,在大规模深度学习场景中,梯度在短时间训练后动态地收敛到一个非常小的子空间。该子空间由海森矩阵的前几个特征向量构成,并在长时间训练中大部分保持不变。我们给出了一个分类问题可解模型的例子,并对此效应对优化和学习的潜在影响进行了评论
→
PDF
6 years ago
Prev
Next