NIPSNov, 2018

超级计算机规模的图像分类

TL;DR本文介绍了三个与系统相关的优化方案 —— 分布式批量归一化控制每个副本批量大小、输入管道优化维持模型吞吐量和二维鼓形约减加速梯度求和 —— 将这些优化相结合,在 1024 芯片 TPU v3 Pod 上以超过 105 万张 / 秒的训练吞吐量,在 2.2 分钟内将 ResNet-50 在 ImageNet 上训练到 76.3%的准确度,且没有精度降低。