May, 2023

SANE:通过锐度调整的有效参数数量优化的梯度下降阶段

TL;DR本文研究神经网络的 Hessian 矩阵在训练过程中的应用,提出了 SANE 用于模型比较,并探究了大学习率下 Hessian 矩阵的偏移及其对深度神经网络的影响。