May, 2023

梯度下降单调减小标量网络及其他解的梯度流锐度

TL;DR应用梯度下降 (GD) 到神经网络时,损失函数几乎从不呈单调递减。我们找到了一种随着 GD 训练而单调递减的量:梯度流解 (GFS) 所达到的锐度。在理论上,我们分析了具有平方损失的标量神经网络,这可能是出现 EoS 现象最简单的设置。我们在模型中证明了 GFS 锐度单调递减的结果,并表征了在标量网络中 GD 可以证明收敛到 EoS 的设置。从经验上看,我们展示了在平方回归模型以及实用的神经网络架构中,GD 单调递减 GFS 锐度。