ICLRJan, 2020

稀疏梯度的方差减少

TL;DR本文提出了一种新的稀疏操作符:随机 Top-k 操作符,用于估计梯度稀疏性,将其与随机化坐标下降操作符结合,可降低 SVRG 和 SpiderBoost 方法的计算复杂度。实验证明该方法在各种模型和任务中的表现优于 SpiderBoost。