BriefGPT.xyz
Jul, 2022
探索动量如何提高深度学习的泛化能力
Towards understanding how momentum improves generalization in deep learning
HTML
PDF
Samy Jelassi, Yuanzhi Li
TL;DR
本文考察了随机梯度下降(SGD)算法过程中的冲量(momentum)对深度学习模型的收敛和泛化的影响,提出了冲量在提高泛化能力方面的新视角,并在一个一层卷积神经网络的分类问题中得出,使用加冲量的梯度下降(GD+M)算法可以有效提高模型的泛化能力。
Abstract
stochastic gradient descent
(SGD) with
momentum
is widely used for training modern
deep learning
architectures. While it is well-understoo
→