Jun, 2019

存在糟糕的全局最小值,并且 SGD 可以到达它们

TL;DR通过研究深度神经网络的显式正则化对随机梯度下降的作用,证实显式正则化对于高参数化的神经网络成功的贡献远比随机梯度下降方法更为重要。