Oct, 2018

SGD 对超参数模型的更快收敛和快速收敛,及加速感知器

TL;DR通过研究表明,在现代机器学习中,采用具有极高表现力的模型进行训练,可以实现完全拟合或内插数据,从而得到零训练损失。我们证明,采用恒定步长随机梯度下降法(SGD)与 Nesterov 加速法具有相同的收敛速度,适用于凸和强凸函数。同时,我们发现,SGD 可以在非凸情况下像全梯度下降法一样高效地找到一阶稳定点。最后,我们通过对合成和真实数据集的实验验证了我们的理论发现。