Jun, 2019

AdaGrad在可分数据上的隐式偏见

TL;DR本文研究了AdaGrad在可分线性分类问题上的隐式偏差,并证明其收敛于一个可以被描述为具有与硬SVM问题相同可行集的二次优化问题的方向。此外,还讨论了不同的超参数选择对AdaGrad的影响,这增进了我们对为什么自适应方法在实践中似乎没有梯度下降优良的泛化能力的更深入理解。