May, 2023
小批量处理对二阶优化器的泛化性能有所改善
Minibatching Offers Improved Generalization Performance for Second Order Optimizers
Eric Silk, Swarnita Chakraborty, Nairanjana Dasgupta, Anand D. Sarwate, Andrew Lumsdaine...
TL;DR深度神经网络的训练对计算资源消耗较大,为了提高性能,机器学习科学家通常使用随机一阶及二阶优化方法,通过经验研究发现,训练中的批大小对方法的最大准确率有显著影响,并且二阶优化方法在特定批大小下表现出更低的方差,可能需要更少的超参数调整,从而减少了模型训练的总体时间。