Dec, 2017
插值的威力:理解SGD在现代超参模型学习中的有效性
The Power of Interpolation: Understanding the Effectiveness of SGD in
Modern Over-parametrized Learning
TL;DR本文旨在正式解释当代机器学习中观察到的SGD快速收敛现象。我们重点观察现代学习架构是过参数化的,并且被训练用于通过将经验损失(分类和回归)驱动到接近零的插值数据。我们表明,这些插值方案允许SGD快速收敛,与全梯度下降迭代次数相当。对于凸损失函数,我们获得了与全梯度下降相似的“迷你批次”SGD的指数收敛界限。关键的迷你批次大小可以视为有效迷你批次并行化的限制,并且几乎独立于数据大小。