Mar, 2020

规模化流水线反向传播:无批量训练大型模型

TL;DR本文研究了深度神经网络的硬件加速器,并提出了一种具有硬件优势的异步管道并行训练算法。通过引入 Spike Compensation 和 Linear Weight Prediction 两种方法,它有效地减轻了由 Pipelined Backpropagation 的异步性造成的缺点,并优于现有技术。适当的标准化和小批量大小也有助于训练,与 SGD 相比,它能够在 CIFAR-10 和 ImageNet 上为多个网络的训练匹配准确度。