BriefGPT.xyz
Dec, 2016
将自适应批量大小与学习率相结合
Coupling Adaptive Batch Sizes with Learning Rates
HTML
PDF
Lukas Balles, Javier Romero, Philipp Hennig
TL;DR
本论文提出了动态批次大小自适应方法,通过估计随机梯度的方差并将批次大小调整为与目标函数成比例的方式,从而消除了先前所述的学习速率降低的需要。与相关工作不同的是,我们的算法将批次大小与学习速率相结合,直接反映了两者之间的已知关系。在流行的图像分类基准测试中,我们的批次大小自适应可以更快地优化收敛,同时简化学习速率调整。
Abstract
mini-batch stochastic gradient descent
and variants thereof have become standard for large-scale empirical risk minimization like the training of
neural networks
. These methods are usually used with a constant ba
→