May, 2024

稳定性边界训练的原因 —— 分层雅可比对齐

TL;DR用指数欧拉求解器训练神经网络,以准确近似真实的梯度下降动态系统,证明了 Hessian 矩阵的锐度增加是由于网络的逐层 Jacobian 矩阵对齐导致的,而对齐程度与数据集大小呈幂律关系,相关性系数在 0.74 到 0.98 之间。