Nov, 2017

大型小批量 SGD 扩展:改进准确性和减少训练时间的 ImageNet-1K 上残差网络训练

TL;DR本文探讨了在 petaflop 级超级计算机上训练 ResNet-50 的挑战和新解决方案,最终展示了高达 90%的扩展效率和 28 分钟的训练时间。同时介绍了 Collapsed Ensemble (CE) 技术,使得在相同的固定训练预算下,使用未修改的 ResNet-50 拓扑结构可以获得高达 77.5%的准确率,类似于 ResNet-152。