深度学习模型的 CPU 和 GPU 性能分析比较

Sep, 2023

深度学习模型的 CPU 和 GPU 性能分析比较

Comparative Analysis of CPU and GPU Profiling for Deep Learning Models

Dipesh Gyawali

TL;DR使用 Pytorch 实现深度神经网络时，本文通过分析 CPU 和 GPU 的时间和内存分配，显示 GPU 相比 CPU 在深度神经网络的训练中运行时间更短，但在简化网络中，GPU 相比 CPU 没有太多显著的改进。

Abstract

deep learning(DL) and machine learning(ML) applications are rapidly increasing in recent days. Massive amounts of data are being generated over the internet which can derive meaningful results by the use of ML an

deep learning machine learning ml projects tensorflow pytorch

发现论文，激发创造

基于 CPU 的深度学习模型：高效训练的方法论

本文提出了一种在 Intel CPU 上优化深度学习模型训练的方法和工具集 ProfileDNN 以及一个任务优化方法，旨在解决在选择适当硬件时成本和效率之间的权衡问题，并通过几个案例研究探讨了如何使用 ProfileDNN 和 Intel PyTorch 扩展来优化模型训练。

Jun, 2022

深度学习软件工具的最新技术对标

本文主要研究了 Caffe、CNTK、MXNet、TensorFlow 和 Torch 等最新的 GPU 加速深度学习软件工具，并通过基准测试比较了这些工具的性能。本研究旨在为终端用户选择合适的硬件平台和软件工具提供指南，并为深度学习工具的软件开发者指出未来的性能优化方向。

Aug, 2016

GPU 上的分布式深度学习框架性能建模与评估

本研究通过评估四种最先进的分布式深度学习框架（即 Caffe-MPI，CNTK，MXNet 和 TensorFlow）在单 GPU、多 GPU 和多节点环境中的运行性能，基于 SGD 训练三种流行的卷积神经网络（即 AlexNet，GoogleNet 和 ResNet-50），分析了引起这四个框架性能差异的因素，并提出进一步优化方向。通过分析和实验研究，发现了可以进一步优化的瓶颈和开销，为算法设计和系统配置提供了改进方向。

Nov, 2017

绿色人工智能：不同运行时基础设施下深度学习模型的能量消耗初步实证研究

本研究通过监测三个知名的深度学习框架和 ONNX 的运行时基础设施，使用三种不同的深度学习模型来测试能耗和推理时间，发现深度学习的性能和能效难以预测，并且不同的框架和执行提供者在不同场景下表现各异。转换为 ONNX 通常能显著提高性能，但批量为 64 的 ONNX 转换 ResNet 模型比原始的 PyTorch 模型多消耗约 10% 的能量和时间。

Feb, 2024

深度学习中 TPU、GPU 和 CPU 平台的基准测试

这篇研究论文介绍了一个参数化基准套件 Paradnn，用于评估深度学习平台性能，重点评估了谷歌 Cloud TPU v2/v3、英伟达 V100 GPU 和英特尔 Skylake CPU 平台，在针对每种平台引入特殊软件技术栈的情况下，对每种类型的模型的专门优势进行了量化比较。

Jul, 2019

硬件感知机器学习：建模与优化

本篇论文全面评估现有的面向硬件的深度学习模型建模和优化方法，提出几个值得探讨的研究方向，旨在让深度学习的应用对硬件系统和平台产生显著影响。

Sep, 2018

深度学习软件框架的比较研究

本文比较了五种深度学习框架（Caffe，Neon，TensorFlow，Theano 和 Torch）在三个方面的性能（可扩展性，硬件利用率和速度指标），并评估了它们在训练和部署各种深度学习结构时的性能。研究结果表明：Theano 和 Torch 是最易于扩展的框架，中央处理器上最适用的框架是 Torch，然后是 Theano，此外 Caffe 可以轻松地评估标准深度结构的性能，TensorFlow 是非常灵活的框架，但目前其性能与其他研究的框架相比不具竞争力。

Nov, 2015

理解 HPC 规模人工智能的能源消耗

本文介绍了一种名为 Benchmark-Tracker 的基准测试工具，该工具能够通过软件收集能源信息，从而评估人工智能和深度学习算法的速度和能耗，并在实验中展示了其潜力。

Nov, 2022

与硬件协同设计模型架构的案例

通过仔细考虑 GPU 上执行的基础计算核心的各种模型超参数对模型形状效率的影响，我们提供了一套指南，以最大化用户的 Transformer 模型的运行时性能。通过优化模型形状，与具有类似参数但形状未经优化的模型相比，高效模型形状的吞吐量提高了多达 39％，同时保持准确性。

Jan, 2024

深度学习负载下 GPU 故障的预测

该研究旨在通过使用机器学习模型来预测 GPU 故障，以改善在深度学习任务中可能导致的严重后果，并提出多种技术来提高预测精度，最终将预测精度从 46.3％提高到 84.0％。

Jan, 2022