Jul, 2018

深度神经网络损失函数的极限方向与随机梯度下降步长的关系

TL;DR使用较小的学习率和SGD最陡峭的方向进行训练可以提高模型的训练速度和泛化能力,而较大的学习率或较小的批量大小将导致SGD进入更宽的区域。