深度学习中 TPU、GPU 和 CPU 平台的基准测试
本文主要研究了 Caffe、CNTK、MXNet、TensorFlow 和 Torch 等最新的 GPU 加速深度学习软件工具,并通过基准测试比较了这些工具的性能。本研究旨在为终端用户选择合适的硬件平台和软件工具提供指南,并为深度学习工具的软件开发者指出未来的性能优化方向。
Aug, 2016
该研究使用各种普通设备系统地评估了一系列最先进的 DNN,识别了每种架构的潜在瓶颈,并提供了可以帮助社区协同设计更高效的 DNN 和加速器的重要指导方针。
May, 2019
本文提出了一种在 Intel CPU 上优化深度学习模型训练的方法和工具集 ProfileDNN 以及一个任务优化方法,旨在解决在选择适当硬件时成本和效率之间的权衡问题,并通过几个案例研究探讨了如何使用 ProfileDNN 和 Intel PyTorch 扩展来优化模型训练。
Jun, 2022
通过提出一个新的 deep neural networks 训练基准 (TBD),并在三个主要的深度学习框架 (TensorFlow、MXNet、CNTK) 上进行广泛的性能分析,本文为 DNN 训练提供了一套新的分析工具集以及对未来研究和优化的建议。
Mar, 2018
使用 Pytorch 实现深度神经网络时,本文通过分析 CPU 和 GPU 的时间和内存分配,显示 GPU 相比 CPU 在深度神经网络的训练中运行时间更短,但在简化网络中,GPU 相比 CPU 没有太多显著的改进。
Sep, 2023
本研究是对 Tensor Processing Unit (TPU) 这种加速神经网络 (NN) 推理阶段的定制 ASIC 进行的评估,与同样部署在数据中心的 Intel Haswell CPU 和 Nvidia K80 GPU 相比,TPU 在保证相应时间的情况下比 GPU 或 CPU 平均快 15 倍 - 30 倍,TOPS/Watt 比 GPU 提高近 70 倍,比 CPU 提高 200 倍。
Apr, 2017
本研究通过评估四种最先进的分布式深度学习框架(即 Caffe-MPI,CNTK,MXNet 和 TensorFlow)在单 GPU、多 GPU 和多节点环境中的运行性能,基于 SGD 训练三种流行的卷积神经网络(即 AlexNet,GoogleNet 和 ResNet-50),分析了引起这四个框架性能差异的因素,并提出进一步优化方向。通过分析和实验研究,发现了可以进一步优化的瓶颈和开销,为算法设计和系统配置提供了改进方向。
Nov, 2017
本研究分析了当前用于图像识别的大多数深度神经网络 (DNN) 的性能指标,包括识别准确率、模型复杂度、计算复杂度、内存使用和推断时间等,并通过在两种不同计算机架构上的实验来测量指标,以帮助研究者们了解目前已经研究探索的解决方案及其未来发展方向,并帮助从业者选择最适合其资源限制的 DNN 架构。
Oct, 2018
本文提出了一些技术来在 Google TPU Multipod 上扩展 ML 模型,讨论了模型并行处理,解决数据并行处理中批处理大小的扩展限制,以及一些性能优化方法,并用 TensorFlow 和 JAX 框架进行了演示,同时给出了 MLPerf-v0.7 竞赛结果,获得了四个 MLPerf 模型的最快训练时间记录。
Nov, 2020
本研究论文主要探讨了谷歌开发的专门用于深度学习的 Tensor Processing Units(TPUs)在边缘计算中的性能表现,研究了 TPUs 的设计、总体架构、编译技术和支持框架,并对云端和边缘 TPU 的性能进行了比较分析,结果显示 TPUs 在云端和边缘计算中都能显著提高性能。此外,文章还提到了在边缘 TPU 部署更多架构的需求,以及在边缘计算中进行更稳健比较的需求。
Sep, 2023