Jun, 2018

可分离数据上的随机梯度下降:固定学习率的精确收敛

TL;DR本文探讨了采用 SGD 进行机器学习的收敛性问题,特别是在采用线性可分数据及单调函数损失函数的情况下,证明了 SGD 在固定非零学习率的条件下可以收敛至零损失,对于分类问题中的单调函数损失函数(例如对数损失),每次迭代权重向量趋向于 $L_2$ 最大裕度向量,且损失以 $O (1/t)$ 的速率收敛。