Mar, 2018

可分数据上梯度下降的收敛性

TL;DR对采用严格单调尾部的损失函数(如对数损失)在可分离数据集上利用梯度下降时的隐式偏差进行了详细研究,证明了对于一大类超多项式尾部损失,梯度下降迭代可以收敛到任意深度的线性网络的L2最大边距解。