MMOct, 2017

马尔科夫链理论方法描述随机梯度下降(针对最小二乘法)的极小极大优化特性

TL;DR本文针对最小二乘法,提供了一个简化的证明,证明了随机梯度下降法(SGD)的(迭代平均)统计极小值最优性,并通过分析 SGD 作为随机过程、对该过程的稳态协方差矩阵进行尖锐刻画等方式进行了证明。有限速率的最优性刻画捕获了常数因子,并解决了模型错误规格化的问题。