Aug, 2018

非凸问题通用逐步学习方法,收敛于平均解

TL;DR本文提出了一个通用的分级优化框架,用于求解一类广泛的非平滑非凸问题,采用随机凸优化算法,如准随机梯度下降和 AdaGrad 以及分级降低步长方式,并返回平均解决方案。作者的理论结果表明分级 AdaGrad 的自适应性,从而揭示其对于稀疏随机梯度问题比分级 SGD 更快收敛的见解,并在经验研究中提高了现有 SGD 和 AdaGrad 实现的泛化性能。