ICLRNov, 2016
Entropy-SGD: 将梯度下降偏向于宽阔的山谷
Entropy-SGD: Biasing Gradient Descent Into Wide Valleys
Pratik Chaudhari, Anna Choromanska, Stefano Soatto, Yann LeCun, Carlo Baldassi...
TL;DR本论文提出一种名为 Entropy-SGD 的新型优化算法,利用能量景观的局部几何进行深度神经网络的训练,结果显示该算法相较于 SGD 具有更平滑的能量景观以及更好的泛化性能,是目前最先进的技术之一。