Mar, 2020

规模化流水线反向传播:无批量训练大型模型

TL;DR本文研究了深度神经网络的硬件加速器,并提出了一种具有硬件优势的异步管道并行训练算法。通过引入Spike Compensation和Linear Weight Prediction两种方法,它有效地减轻了由Pipelined Backpropagation的异步性造成的缺点,并优于现有技术。适当的标准化和小批量大小也有助于训练,与SGD相比,它能够在CIFAR-10和ImageNet上为多个网络的训练匹配准确度。