Feb, 2019

尾平均和小批量化克服 SGD 饱和

TL;DR本文探讨随机梯度下降(SGD)在非参数设置中的最小二乘学习,结果显示如何通过多次传递,小批量和平均以及尾平均的不同变体来结合以实现最优学习错误,同时指出尾平均可以比均匀平均获得更快的收敛速率,并且结合使用尾平均和小批量可以比单独使用任何一个组件更具有攻击性的步长选择。