Mar, 2024

深度均质神经网络的早期方向收敛及小初始化

TL;DR该论文研究了使用小的初始值训练深层均匀神经网络时产生的梯度流动力学。该研究表明,在训练的早期阶段,神经网络的权重保持较小的范数,并且在神经关联函数的 Karush-Kuhn-Tucker (KKT) 点附近大致收敛于相同方向。此外,在平方损失和神经网络权重的可分离性假设下,梯度流动力学在损失函数的某些鞍点附近也显示出类似的方向收敛。