ICMLMar, 2018

随机梯度下降中的各向异性噪声:脱离尖锐极小值的行为和正则化效应

TL;DR通过研究梯度下降优化动力学的一般形式,分析在逃离极值和其正则化效应方面的行为,提出了一个新颖的指标来表征逃离最小值的效率,并建立了两个条件来确定哪种类型的噪声结构在逃脱效率方面优于各向同性噪声。结果表明,随着与损失函数曲率的对齐,异性噪声有助于从尖锐和差的最小值中逃脱,趋向于更稳定、更平的最小值。