数据回声加速神经网络训练
该研究文章提出了一种名为 “数据回响” 的新优化方法,通过在等待新数据到达的同时在同一批次上重复梯度步骤来克服大规模并行管道中的性能瓶颈。而且,该方法在凸优化中的随机小批量优化以及在其他正在被大规模并行化的领域中得到了证明,展现出明显的加速和优越性能。
Oct, 2020
本文针对输入数据管道对训练 DNN 模型的影响展开研究,使用 DS-Analyzer 工具精确测量数据阻塞时间,提出 CoorDL 数据加载库来缓解数据阻塞问题,并在多个 DNN 模型、数据集、硬件配置上进行验证,结果显示相对于 DALI 数据加载库,使用 CoorDL 数据加载库可以显著降低 DNN 训练时间。
Jul, 2020
研究通过应用 Gradient Accumulation、Automatic Mixed Precision 和 Pin Memory 等方法来加速深度神经网络的训练过程,并证明这些方法能够显著提高训练效率,为深度学习过程的改进提供重要见解。
Dec, 2023
本文介绍了三个与系统相关的优化方案 —— 分布式批量归一化控制每个副本批量大小、输入管道优化维持模型吞吐量和二维鼓形约减加速梯度求和 —— 将这些优化相结合,在 1024 芯片 TPU v3 Pod 上以超过 105 万张 / 秒的训练吞吐量,在 2.2 分钟内将 ResNet-50 在 ImageNet 上训练到 76.3%的准确度,且没有精度降低。
Nov, 2018
本篇论文主要关注于了解公共云中深度神经网络(DNN)训练的数据预处理流程。我们运行实验来测试使用原始数据或记录文件两种主要数据预处理方法所带来的性能影响。初步结果表明,即使使用 NVIDIA DALI 这种高度优化的数据预处理库,数据预处理仍然是明显的瓶颈。其次,我们确定了潜在的原因,采用了多种优化方法,并介绍了它们的优缺点。希望本研究可以为 “数据存储和加载管道” 与 “训练框架” 的新协同设计以及它们之间的灵活资源配置提供参考,使资源得到充分利用并提高性能。
Apr, 2023
通过分析编码器和解码器 Transformer 模型,我们展示了在解码器模型中内存带宽如何成为主要的瓶颈,并提出了模型架构、训练和部署策略的重新设计来克服这一内存限制。
Mar, 2024
本研究设计的 EF-Train 是一种高效的 DNN 训练加速器,通过数据重塑,并建立自动计算和内存资源调度的分析模型,在低功耗边缘级 FPGA 上实现端到端的训练,最终达到了 46.99 GFLOPS 和 6.09GFLOPS/W 的吞吐量和能量效率。
Feb, 2022
该研究提出了一种全局优化 transformers 数据传输的方法,通过减少数据传输的步骤,实现了对 BERT 编码器层的训练性能提升 1.30 倍以及整个 BERT 的训练性能提升 1.19 倍。此方法可更广泛地应用于优化深度神经网络,提供了解决性能瓶颈问题的见解。
Jun, 2020
论文介绍了一种通过生成小型的代理数据集来加速机器学习模型训练的方法,并将其与基于完整数据集训练的基准模型进行了对比,实验证明该方法能够提高模型训练效率并得到高质量的实验结果。
Jun, 2019
最近几年,深度学习方法在加速数值求解器方面取得了突破,提供了对物理世界的忠实但计算密集型的模拟。提出了一个开源框架,能够从大量集合运行的模拟中在线训练这些模型。该框架通过利用多层并行性生成丰富的数据集,避免了 I/O 瓶颈和存储问题,并通过直接流式传输生成的数据。训练储备池减轻了流式传输的固有偏差,同时最大化了 GPU 吞吐量。实验证明,采用该方法,在 2 小时内能够训练 8TB 的数据,并且准确度提高了 47%,批处理吞吐量增加了 13 倍,相比传统的离线过程。
Sep, 2023