BriefGPT.xyz
Oct, 2017
贝叶斯视角下的泛化和随机梯度下降
Understanding Generalization and Stochastic Gradient Descent
HTML
PDF
Samuel L. Smith, Quoc V. Le
TL;DR
研究机器学习中的二个核心问题——如何预测最小值是否能推广到测试集,以及为什么随机梯度下降找到的最小值能很好地推广;探讨了小批量大小影响参数朝向大证据最小值的作用;当学习速率固定时,建议选择使测试集准确性最大化的最佳批次大小。
Abstract
This paper tackles two related questions at the heart of
machine learning
; how can we predict if a minimum will generalize to the test set, and why does
stochastic gradient descent
find minima that generalize wel
→