NIPSNov, 2016

可扩展自适应随机投影随机优化

TL;DR通过随机降维的方式,提出了 Ada-LR 和 RadaGrad 两种有效的逼近全矩阵 AdaGrad 的算法,能够在减少计算 cost 的同时保证和全矩阵 AdaGrad 相似的性能,其中 RadaGrad 在卷积神经网络和循环神经网络的训练中能够实现更快的收敛速度。