自然梯度和参数平均化并行训练深度神经网络

ICLROct, 2014

自然梯度和参数平均化并行训练深度神经网络

Parallel training of DNNs with Natural Gradient and Parameter Averaging

Daniel Povey, Xiaohui Zhang, Sanjeev Khudanpur

TL;DR本文主要介绍了 Kaldi 语音识别工具包中使用的神经网络训练框架。该框架可用于使用多个带有 GPU 的计算机或多核计算机训练大量训练数据的 DNNs。神经网络参数的定期平均化和分发以及 NG-SGD 的近似高效实现似乎能够使训练方法有效地工作，同时还可以大大提高单个机器上 SGD 的收敛性。

Abstract

We describe the neural-network training framework used in the Kaldi speech recognition toolkit, which is geared towards training dnns with large amounts of training data using →

neural-network training kaldi speech recognition dnns multiple gpu-equipped ng-sgd

发现论文，激发创造

使用模型平均法并行训练深度神经网络的实验

本研究针对深度神经网络（DNN）的并行训练使用模型平均方法。多 GPU 数据并行化，MPI 进行节点间通信，每隔几个 minibatches 进行模型平均。针对不同的学习速度、平均频率和 minibatch 尺寸探索最佳设置，研究发现 “NG-SGD” 和 “RBM” 预训练有利于基于参数平均的模型训练，可以实现 9.3 倍和 17 倍的加速，只有少量解码精度的损失。

Jul, 2015

并行重启 SGD：更快收敛，更少通信 —— 揭秘深度学习中模型平均的原理

本篇论文探讨了为何模型平均可以降低神经网络分布式训练中的通信开销，并阐述该方法与并行小批量随机梯度下降（SGD）在训练时间上的相似性。

Jul, 2018

分布式深度学习的扩展方法

该研究比较了同步和异步随机梯度下降的收敛性，针对 ImageNet 分类问题的训练，在 32 个节点以下异步 SGD 包括弹性平均和 gossiping 能更快收敛，而同步 SGD 在 100 个节点以下能更好地扩展。

Nov, 2016

动态模型平均的高效分散式深度学习

我们提出了一种高效的协议，用于分布式数据源的分散式深度神经网络训练，该协议允许同等处理模型训练的不同阶段，并快速适应概念偏移，这导致与周期性通信的最先进的方法相比，通信减少了一个数量级。此外，我们得出一个通信限制，该限制随序列化学习问题难度的增加而缩放得很好，通信的减少几乎没有代价，因为预测性能保持几乎不变。实验证实了模型性能和通信之间的权衡的显着改进，这可能有助于许多分散式学习应用，例如自动驾驶或移动电话上的语音识别和图像分类。

Jul, 2018

语言建模的异步局部 SGD 训练

本篇论文通过实证研究异步 Local-SGD 对训练语言模型的影响，发现异步 Local-SGD 相较于同步对应方法虽然更频繁地更新模型参数，但需要更多迭代才能达到收敛。主要挑战是在工作者梯度失效时全局参数的动量加速。提出了一种新方法，利用延迟 Nesterov 动量更新并根据计算速度调整工作者的本地训练步骤。在 C4 数据集上评估，该方法在每次更新步骤的困惑度方面与同步 Local-SGD 性能相当，并在墙钟时间方面显著超越其。

Jan, 2024

并行 SGD：何时使用平均有帮助？

研究了多个工作者独立运行 SGD 并定期平均模型的常见但未被充分理解的做法，探讨了模型平均作为方差减少机制的两种方式，并说明了平均频率对收敛的影响，对于凸目标函数，频繁平均的好处依赖于梯度方差包络，在非凸目标函数中，该好处取决于多个全局最优点的存在。在合成数据和实际数据上进行了多核实验以补充研究结果。

Jun, 2016

使用分布式双均值在网络中指数级快速进行参数估计

本文提出了一种基于优化的分布参数估计和观察性社交学习方法，演示了如何使用分布式，在线的 Nesterov 双平均法解决纯粹依靠本地信息的估计，并证明了代理最终可以使用随机瓦解方案学习真实参数。

Sep, 2013

随机梯度下降的稳定性和最优性

提出一种基于平均隐式（averaged implicit）随机梯度下降的迭代过程，旨在解决参数估计过程中的数值不稳定性和统计效率问题。实践证明这种方法比其他现有方法表现更为出色。

May, 2015

重新审视神经机器翻译中的检查点平均化

在神经机器翻译中，采用 checkpoint 平均值来提高模型的性能，此方法计算简单，被广泛采用。本文通过实验，考虑了不同 checkpoint 选择策略、加权平均、梯度信息等方面的应用，结果表明 checkpoint 平均值对于性能的提高是必要的，但随着收敛到最优模型的序列不断增加，模型的改善空间较小。

Oct, 2022

GPU 异步随机梯度下降加速神经网络训练

本文介绍了一种新的系统 ——GPU A-SGD，它同时利用了模型并行和数据并行的方法，加快了卷积神经网络的训练速度，从而可以使大型网络在较短时间内训练大型数据集。

Dec, 2013