数据回声加速神经网络训练

Jul, 2019

Faster Neural Network Training with Data Echoing

Dami Choi, Alexandre Passos, Christopher J. Shallue, George E. Dahl

TL;DR本文介绍了一种名为‘数据回声’的技术，通过重复使用较早阶段的中间输出，以减少早期训练管道阶段的计算总量，以加速神经网络模型的训练。此方法可以达到与传统模型预测表现预测性能相当，但使用更少的上游计算量。

Abstract

In the twilight of Moore's law, GPUs and other specialized hardware accelerators have dramatically sped up neural network training. However, earlier stages of the training pipeline, such as disk I/O and data prep

data echoing neural network training gpu accelerators data preprocessing

发现论文，激发创造

滞后数据管道的随机优化

该研究文章提出了一种名为 “数据回响” 的新优化方法，通过在等待新数据到达的同时在同一批次上重复梯度步骤来克服大规模并行管道中的性能瓶颈。而且，该方法在凸优化中的随机小批量优化以及在其他正在被大规模并行化的领域中得到了证明，展现出明显的加速和优越性能。

Oct, 2020

深度神经网络训练中数据阻塞的分析与减轻

本文针对输入数据管道对训练 DNN 模型的影响展开研究，使用 DS-Analyzer 工具精确测量数据阻塞时间，提出 CoorDL 数据加载库来缓解数据阻塞问题，并在多个 DNN 模型、数据集、硬件配置上进行验证，结果显示相对于 DALI 数据加载库，使用 CoorDL 数据加载库可以显著降低 DNN 训练时间。

Jul, 2020

加速神经网络训练：简要回顾

研究通过应用 Gradient Accumulation、Automatic Mixed Precision 和 Pin Memory 等方法来加速深度神经网络的训练过程，并证明这些方法能够显著提高训练效率，为深度学习过程的改进提供重要见解。

Dec, 2023

超级计算机规模的图像分类

本文介绍了三个与系统相关的优化方案 —— 分布式批量归一化控制每个副本批量大小、输入管道优化维持模型吞吐量和二维鼓形约减加速梯度求和 —— 将这些优化相结合，在 1024 芯片 TPU v3 Pod 上以超过 105 万张 / 秒的训练吞吐量，在 2.2 分钟内将 ResNet-50 在 ImageNet 上训练到 76.3％的准确度，且没有精度降低。

Nov, 2018

深度神经网络的高效端到端训练中理解数据预处理

本篇论文主要关注于了解公共云中深度神经网络（DNN）训练的数据预处理流程。我们运行实验来测试使用原始数据或记录文件两种主要数据预处理方法所带来的性能影响。初步结果表明，即使使用 NVIDIA DALI 这种高度优化的数据预处理库，数据预处理仍然是明显的瓶颈。其次，我们确定了潜在的原因，采用了多种优化方法，并介绍了它们的优缺点。希望本研究可以为 “数据存储和加载管道” 与 “训练框架” 的新协同设计以及它们之间的灵活资源配置提供参考，使资源得到充分利用并提高性能。

Apr, 2023

人工智能与内存壁

通过分析编码器和解码器 Transformer 模型，我们展示了在解码器模型中内存带宽如何成为主要的瓶颈，并提出了模型架构、训练和部署策略的重新设计来克服这一内存限制。

Mar, 2024

EF-Train: FPGA 上通过数据重塑实现高效的 CNN 设备端训练以进行在线适应或个性化

本研究设计的 EF-Train 是一种高效的 DNN 训练加速器，通过数据重塑，并建立自动计算和内存资源调度的分析模型，在低功耗边缘级 FPGA 上实现端到端的训练，最终达到了 46.99 GFLOPS 和 6.09GFLOPS/W 的吞吐量和能量效率。

Feb, 2022

数据移动即所需：优化 Transformer 的案例研究

该研究提出了一种全局优化 transformers 数据传输的方法，通过减少数据传输的步骤，实现了对 BERT 编码器层的训练性能提升 1.30 倍以及整个 BERT 的训练性能提升 1.19 倍。此方法可更广泛地应用于优化深度神经网络，提供了解决性能瓶颈问题的见解。

Jun, 2020

使用小型代理数据集加速超参数搜索

论文介绍了一种通过生成小型的代理数据集来加速机器学习模型训练的方法，并将其与基于完整数据集训练的基准模型进行了对比，实验证明该方法能够提高模型训练效率并得到高质量的实验结果。

Jun, 2019

大规模集成运行中的深度替代模型的高吞吐量训练

最近几年，深度学习方法在加速数值求解器方面取得了突破，提供了对物理世界的忠实但计算密集型的模拟。提出了一个开源框架，能够从大量集合运行的模拟中在线训练这些模型。该框架通过利用多层并行性生成丰富的数据集，避免了 I/O 瓶颈和存储问题，并通过直接流式传输生成的数据。训练储备池减轻了流式传输的固有偏差，同时最大化了 GPU 吞吐量。实验证明，采用该方法，在 2 小时内能够训练 8TB 的数据，并且准确度提高了 47％，批处理吞吐量增加了 13 倍，相比传统的离线过程。

Sep, 2023