Apr, 2023

深度神经网络的高效端到端训练中理解数据预处理

TL;DR本篇论文主要关注于了解公共云中深度神经网络(DNN)训练的数据预处理流程。我们运行实验来测试使用原始数据或记录文件两种主要数据预处理方法所带来的性能影响。初步结果表明,即使使用 NVIDIA DALI 这种高度优化的数据预处理库,数据预处理仍然是明显的瓶颈。其次,我们确定了潜在的原因,采用了多种优化方法,并介绍了它们的优缺点。希望本研究可以为 “数据存储和加载管道” 与 “训练框架” 的新协同设计以及它们之间的灵活资源配置提供参考,使资源得到充分利用并提高性能。