Feb, 2020

大规模深度学习的可伸缩实用自然梯度

TL;DR本文提出了 Scalable and Practical Natural Gradient Descent(SP-NGD)算法,一种能够解决大规模深度神经网络训练中 mini-batch size 增加导致泛化能力下降的问题,且能够快速收敛并达到类似一阶优化方法的泛化性能,同时可进行大规模分布式训练。实验结果表明,使用 SP-NGD 算法进行 ImageNet 数据集上的 ResNet-50 模型训练,能够在 5.5 分钟内,使用 32768 的 mini-batch size 和 1024 个 GPU,获得 75.4% 的 top-1 验证精度;且在 873 个步骤内,即使使用极大的 mini-batch size=131072,也能够达到 74.9% 的准确率。