ICLRSep, 2021
随机训练对于泛化不是必需的
Stochastic Training is Not Necessary for Generalization
Jonas Geiping, Micah Goldblum, Phillip E. Pope, Michael Moeller, Tom Goldstein
TL;DR本文通过比较全批量训练和 SGD 在现代结构下在 CIFAR-10 数据集上的表现,证明了 SGD 的隐式正则化可以完全被显式正则化替代,并指出全批量训练受限于优化性质和 ML 社区花费在小批量训练上的大量时间和精力。