Jul, 2021
SGD的极限动力学:修改的损失,相空间振荡和反常扩散
Rethinking the limiting dynamics of SGD: modified loss, phase space
oscillations, and anomalous diffusion
TL;DR研究SGD训练的深度神经网络在性能收敛后的步长限制动态,揭示了优化超参数、梯度噪声结构及训练结束时Hessian矩阵之间错综复杂的相互作用,通过统计物理学的视角解释这种异常扩散现象并在ImageNet数据集的ResNet-18模型上得到了实证验证。