BriefGPT.xyz
Feb, 2019
非对称山谷:突出和平坦局部极值之外
Asymmetric Valleys: Beyond Sharp and Flat Local Minima
HTML
PDF
Haowei He, Gao Huang, Yang Yuan
TL;DR
本研究观察到现代深度网络的局部最小值不仅是平坦或尖锐,而且存在许多不对称方向。我们形式化地将这样的最小值定义为不对称山谷,并证明在不对称山谷中,偏向平面的解决方案比确切的最小值更好地推广。此外,我们还发现,批量归一化(BN)似乎是不对称山谷产生的主要原因。
Abstract
Despite the non-convex nature of their loss functions,
deep neural networks
are known to generalize well when optimized with
stochastic gradient descent
(SGD). Recent work conjectures that SGD with proper configu
→