Jan, 2023

锐度感知最小化的稳定性分析

TL;DR本文研究了锐度感知最小化的动态,发现其在鞍点处存在收敛不稳定性,并证明了鞍点可以在锐度感知最小化动态下成为吸引子。同时,研究发现锐度感知最小化的扩散比普通梯度下降要差。本研究验证了通过动量和批量大小等训练技巧可以缓解收敛不稳定性并实现高泛化性能。