Jun, 2018
可分离数据上的随机梯度下降:固定学习率的精确收敛
Stochastic Gradient Descent on Separable Data: Exact Convergence with a
Fixed Learning Rate
TL;DR本文探讨了采用SGD 进行机器学习的收敛性问题,特别是在采用线性可分数据及单调函数损失函数的情况下,证明了 SGD 在固定非零学习率的条件下可以收敛至零损失,对于分类问题中的单调函数损失函数(例如对数损失),每次迭代权重向量趋向于$L_2$最大裕度向量,且损失以$O(1/t)$的速率收敛。