Jun, 2017

精确的大型小批量随机梯度下降法:在 1 小时内训练 ImageNet

TL;DR本文研究了分布式同步随机梯度下降算法在大规模数据训练中的应用,证明了通过采用新的学习率调整规则和温暖启动方法,大批量训练可以克服优化难题,取得和小批量相同的精度,实现了在支持多达 256 个 GPU 的硬件上,在一小时内使用 8,192 个图像的小批量对 ResNet-50 进行有效的训练。