May, 2017
训练更长时间,泛化更好:在神经网络的大批量训练中缩小泛化差距
Train longer, generalize better: closing the generalization gap in large batch training of neural networks
Elad Hoffer, Itay Hubara, Daniel Soudry
TL;DR该论文研究了大批量训练中的一般化差距现象,并提出一种名为 “Ghost Batch Normalization” 的新算法,可显著减少一般化差距而不增加权重更新数量。