Apr, 2024

梯度下降法与噪声注入的奇异极限分析

TL;DR在超参数化的情况下研究了一类噪声梯度下降系统的极限动力学。研究发现,噪声的结构不仅影响极限过程的形式,还影响演化的时间尺度。应用该理论比较了 Dropout、标签噪声和经典 SGD(小批量)噪声的演化过程,发现它们在不同的两个时间尺度上演化。这些研究结果受到神经网络训练的启发,但定理适用于任何具有非平凡零损失集的噪声梯度下降。