Oct, 2017

贝叶斯视角下的泛化和随机梯度下降

TL;DR研究机器学习中的二个核心问题——如何预测最小值是否能推广到测试集,以及为什么随机梯度下降找到的最小值能很好地推广;探讨了小批量大小影响参数朝向大证据最小值的作用;当学习速率固定时,建议选择使测试集准确性最大化的最佳批次大小。