深度神经网络的高效端到端训练中理解数据预处理

Apr, 2023

深度神经网络的高效端到端训练中理解数据预处理

Understand Data Preprocessing for Effective End-to-End Training of Deep Neural Networks

Ping Gong, Yuxin Ma, Cheng Li, Xiaosong Ma, Sam H. Noh

TL;DR本篇论文主要关注于了解公共云中深度神经网络（DNN）训练的数据预处理流程。我们运行实验来测试使用原始数据或记录文件两种主要数据预处理方法所带来的性能影响。初步结果表明，即使使用 NVIDIA DALI 这种高度优化的数据预处理库，数据预处理仍然是明显的瓶颈。其次，我们确定了潜在的原因，采用了多种优化方法，并介绍了它们的优缺点。希望本研究可以为 “数据存储和加载管道” 与 “训练框架” 的新协同设计以及它们之间的灵活资源配置提供参考，使资源得到充分利用并提高性能。

Abstract

In this paper, we primarily focus on understanding the data preprocessing pipeline for dnn training in the public cloud. First, we run experiments to test the performance implications of the two major

dnn training data preprocessing cloud computing nvidia dali optimization methods

发现论文，激发创造

深度神经网络训练中数据阻塞的分析与减轻

本文针对输入数据管道对训练 DNN 模型的影响展开研究，使用 DS-Analyzer 工具精确测量数据阻塞时间，提出 CoorDL 数据加载库来缓解数据阻塞问题，并在多个 DNN 模型、数据集、硬件配置上进行验证，结果显示相对于 DALI 数据加载库，使用 CoorDL 数据加载库可以显著降低 DNN 训练时间。

Jul, 2020

机器学习流水线的预处理器选择

本文通过 metalearning 方法研究了机器学习中预处理数据的作用以及何时应该运用预处理器在 ML 管道设计中发挥作用，实验发现预处理器可以提高 ML 管道的性能。

Oct, 2018

预处理有助于训练超参数化神经网络吗？

本论文提出两种新的预处理方法以实现针对深度神经网络的快速训练，从而绕过传统的训练方法中的高计算成本，并提供大量其他快速训练方法的理论启示。

Oct, 2021

DiffPrep: 可微分的表格数据预处理流水线搜索

我们提出了一种名为 DiffPrep 的方法，它可以自动且高效地搜索适用于给定表格数据集和可微分机器学习模型的数据预处理流水线，以使机器学习模型的性能达到最大化。我们将数据预处理流水线搜索问题形式化为一个双层优化问题，并通过将离散、非可微分的搜索空间转化和放松为连续、可微分的空间来高效求解，从而只需训练一次机器学习模型即可进行流水线搜索。实验结果表明 DiffPrep 在评估的 18 个真实数据集中有 15 个取得了最佳的测试准确率，并将模型的测试准确率提高了多达 6.6 个百分点。

Aug, 2023

数据回声加速神经网络训练

本文介绍了一种名为‘数据回声’的技术，通过重复使用较早阶段的中间输出，以减少早期训练管道阶段的计算总量，以加速神经网络模型的训练。此方法可以达到与传统模型预测表现预测性能相当，但使用更少的上游计算量。

Jul, 2019

预训练基础模型的整合数据处理框架

基于统一数据处理框架，提出基于大规模、多样化和高质量预训练数据的基础模型，并通过例子和测试展示其在提高数据质量方面的效果。

Feb, 2024

超越推断：计算机视觉 DNN 服务器开销的性能分析

对计算机视觉的深度学习系统进行综合评估，发现数据处理和系统吞吐量是深度学习应用性能的重要瓶颈，并提出了更全面的深度学习系统设计方法。

Mar, 2024

基于金融时间序列数据的兼容深度神经网络框架，包括数据预处理器、神经网络模型和交易策略

该研究介绍了一种新的深度神经网络架构并提出了一种新的方法来准备金融数据以便于它们被馈入该模型，以预测股票和加密货币市场的价格波动。研究表明，该框架可以提供有利可图和稳健的预测，并引入一个交易策略来利用训练模型的输出。

May, 2022

文本预处理在神经网络架构中的作用：文本分类和情感分析的评估研究

本文研究了文本预处理决策（特别是分词、词形还原、小写和多词组合）对标准神经文本分类器性能的影响，并在文本分类和情感分析这两个方面进行了广泛的评估。我们发现，虽然简单的分词通常足够，但预处理技术之间仍存在显着差异，因此这个通常被忽视的步骤很重要，特别是在比较不同模型时，最终评估提供了有关训练词嵌入的最佳预处理实践的见解。

Jul, 2017

使用深度神经网络预处理高效发现对抗样本

该论文介绍了一种预处理 DNN 以大大简化优化问题的方法，以提高 DNN 在安全和业务关键型应用程序中的鲁棒性，并通过实验证明了该方法的有效性。

Nov, 2022