Mar, 2020
规模化流水线反向传播:无批量训练大型模型
Pipelined Backpropagation at Scale: Training Large Models without Batches
Atli Kosson, Vitaliy Chiley, Abhinav Venigalla, Joel Hestness, Urs Köster
TL;DR本文研究了深度神经网络的硬件加速器,并提出了一种具有硬件优势的异步管道并行训练算法。通过引入 Spike Compensation 和 Linear Weight Prediction 两种方法,它有效地减轻了由 Pipelined Backpropagation 的异步性造成的缺点,并优于现有技术。适当的标准化和小批量大小也有助于训练,与 SGD 相比,它能够在 CIFAR-10 和 ImageNet 上为多个网络的训练匹配准确度。