深度学习模型的 CPU 和 GPU 性能分析比较
本文提出了一种在 Intel CPU 上优化深度学习模型训练的方法和工具集 ProfileDNN 以及一个任务优化方法,旨在解决在选择适当硬件时成本和效率之间的权衡问题,并通过几个案例研究探讨了如何使用 ProfileDNN 和 Intel PyTorch 扩展来优化模型训练。
Jun, 2022
本文主要研究了 Caffe、CNTK、MXNet、TensorFlow 和 Torch 等最新的 GPU 加速深度学习软件工具,并通过基准测试比较了这些工具的性能。本研究旨在为终端用户选择合适的硬件平台和软件工具提供指南,并为深度学习工具的软件开发者指出未来的性能优化方向。
Aug, 2016
本研究通过评估四种最先进的分布式深度学习框架(即 Caffe-MPI,CNTK,MXNet 和 TensorFlow)在单 GPU、多 GPU 和多节点环境中的运行性能,基于 SGD 训练三种流行的卷积神经网络(即 AlexNet,GoogleNet 和 ResNet-50),分析了引起这四个框架性能差异的因素,并提出进一步优化方向。通过分析和实验研究,发现了可以进一步优化的瓶颈和开销,为算法设计和系统配置提供了改进方向。
Nov, 2017
本研究通过监测三个知名的深度学习框架和 ONNX 的运行时基础设施,使用三种不同的深度学习模型来测试能耗和推理时间,发现深度学习的性能和能效难以预测,并且不同的框架和执行提供者在不同场景下表现各异。转换为 ONNX 通常能显著提高性能,但批量为 64 的 ONNX 转换 ResNet 模型比原始的 PyTorch 模型多消耗约 10% 的能量和时间。
Feb, 2024
这篇研究论文介绍了一个参数化基准套件 Paradnn,用于评估深度学习平台性能,重点评估了谷歌 Cloud TPU v2/v3、英伟达 V100 GPU 和英特尔 Skylake CPU 平台,在针对每种平台引入特殊软件技术栈的情况下,对每种类型的模型的专门优势进行了量化比较。
Jul, 2019
本文比较了五种深度学习框架(Caffe,Neon,TensorFlow,Theano 和 Torch)在三个方面的性能(可扩展性,硬件利用率和速度指标),并评估了它们在训练和部署各种深度学习结构时的性能。 研究结果表明:Theano 和 Torch 是最易于扩展的框架,中央处理器上最适用的框架是 Torch,然后是 Theano,此外 Caffe 可以轻松地评估标准深度结构的性能,TensorFlow 是非常灵活的框架,但目前其性能与其他研究的框架相比不具竞争力。
Nov, 2015
本文介绍了一种名为 Benchmark-Tracker 的基准测试工具,该工具能够通过软件收集能源信息,从而评估人工智能和深度学习算法的速度和能耗,并在实验中展示了其潜力。
Nov, 2022
通过仔细考虑 GPU 上执行的基础计算核心的各种模型超参数对模型形状效率的影响,我们提供了一套指南,以最大化用户的 Transformer 模型的运行时性能。通过优化模型形状,与具有类似参数但形状未经优化的模型相比,高效模型形状的吞吐量提高了多达 39%,同时保持准确性。
Jan, 2024
该研究旨在通过使用机器学习模型来预测 GPU 故障,以改善在深度学习任务中可能导致的严重后果,并提出多种技术来提高预测精度,最终将预测精度从 46.3%提高到 84.0%。
Jan, 2022