May, 2017

训练更长时间,泛化更好:在神经网络的大批量训练中缩小泛化差距

TL;DR该论文研究了大批量训练中的一般化差距现象,并提出一种名为 “Ghost Batch Normalization” 的新算法,可显著减少一般化差距而不增加权重更新数量。