Apr, 2024

从宏观角度解密神经网络的懒惰训练

TL;DR通过研究神经网络训练动态,探究权重参数在初始化过程中引入的各种因素之间的复杂相互作用,我们发现梯度下降可以快速将深层神经网络驱动至零训练误差,不论具体的初始化方案如何,只要输出函数的初始尺度超过一定阈值。这个区域被称为theta-lazy区域,突出了初始尺度在神经网络训练行为中的主导影响,同时我们还发现这个theta-lazy区域与神经切线核(NTK)范式有相似之处,但条件宽松。通过严格的分析,我们揭示了初始尺度kappa在神经网络训练动态中的关键作用。