ICLROct, 2014

自然梯度和参数平均化并行训练深度神经网络

TL;DR本文主要介绍了 Kaldi 语音识别工具包中使用的神经网络训练框架。该框架可用于使用多个带有 GPU 的计算机或多核计算机训练大量训练数据的 DNNs。神经网络参数的定期平均化和分发以及 NG-SGD 的近似高效实现似乎能够使训练方法有效地工作,同时还可以大大提高单个机器上 SGD 的收敛性。