MMOct, 2017
马尔科夫链理论方法描述随机梯度下降(针对最小二乘法)的极小极大优化特性
A Markov Chain Theory Approach to Characterizing the Minimax Optimality of Stochastic Gradient Descent (for Least Squares)
Prateek Jain, Sham M. Kakade, Rahul Kidambi, Praneeth Netrapalli, Venkata Krishna Pillutla...
TL;DR本文针对最小二乘法,提供了一个简化的证明,证明了随机梯度下降法(SGD)的(迭代平均)统计极小值最优性,并通过分析 SGD 作为随机过程、对该过程的稳态协方差矩阵进行尖锐刻画等方式进行了证明。有限速率的最优性刻画捕获了常数因子,并解决了模型错误规格化的问题。