Jun, 2019

AdaGrad 在可分数据上的隐式偏见

TL;DR本文研究了 AdaGrad 在可分线性分类问题上的隐式偏差,并证明其收敛于一个可以被描述为具有与硬 SVM 问题相同可行集的二次优化问题的方向。此外,还讨论了不同的超参数选择对 AdaGrad 的影响,这增进了我们对为什么自适应方法在实践中似乎没有梯度下降优良的泛化能力的更深入理解。