May, 2019

基于动量的方差减少在非凸 SGD 中的应用

TL;DRSTORM 是一种新的算法,可以用于非凸优化中的方差缩减技术,其不需要任何 batch,具备自适应学习率,相对其他技术,具备更简单易用的优点。