ICLRSep, 2021

随机训练对于泛化不是必需的

TL;DR本文通过比较全批量训练和 SGD 在现代结构下在 CIFAR-10 数据集上的表现,证明了 SGD 的隐式正则化可以完全被显式正则化替代,并指出全批量训练受限于优化性质和 ML 社区花费在小批量训练上的大量时间和精力。