Jul, 2021

SGD 的极限动力学:修改的损失,相空间振荡和反常扩散

TL;DR研究 SGD 训练的深度神经网络在性能收敛后的步长限制动态,揭示了优化超参数、梯度噪声结构及训练结束时 Hessian 矩阵之间错综复杂的相互作用,通过统计物理学的视角解释这种异常扩散现象并在 ImageNet 数据集的 ResNet-18 模型上得到了实证验证。