深度学习中 TPU、GPU 和 CPU 平台的基准测试

Jul, 2019

深度学习中 TPU、GPU 和 CPU 平台的基准测试

Benchmarking TPU, GPU, and CPU Platforms for Deep Learning

Yu Emma Wang, Gu-Yeon Wei, David Brooks

TL;DR这篇研究论文介绍了一个参数化基准套件 Paradnn，用于评估深度学习平台性能，重点评估了谷歌 Cloud TPU v2/v3、英伟达 V100 GPU 和英特尔 Skylake CPU 平台，在针对每种平台引入特殊软件技术栈的情况下，对每种类型的模型的专门优势进行了量化比较。

Abstract

Training deep learning models is compute-intensive and there is an industry-wide trend towards hardware specialization to improve performance

deep learning benchmark neural networks hardware specialization performance

发现论文，激发创造

深度学习软件工具的最新技术对标

本文主要研究了 Caffe、CNTK、MXNet、TensorFlow 和 Torch 等最新的 GPU 加速深度学习软件工具，并通过基准测试比较了这些工具的性能。本研究旨在为终端用户选择合适的硬件平台和软件工具提供指南，并为深度学习工具的软件开发者指出未来的性能优化方向。

Aug, 2016

EmBench：量化现代通用设备上深度神经网络的性能变化

该研究使用各种普通设备系统地评估了一系列最先进的 DNN，识别了每种架构的潜在瓶颈，并提供了可以帮助社区协同设计更高效的 DNN 和加速器的重要指导方针。

May, 2019

基于 CPU 的深度学习模型：高效训练的方法论

本文提出了一种在 Intel CPU 上优化深度学习模型训练的方法和工具集 ProfileDNN 以及一个任务优化方法，旨在解决在选择适当硬件时成本和效率之间的权衡问题，并通过几个案例研究探讨了如何使用 ProfileDNN 和 Intel PyTorch 扩展来优化模型训练。

Jun, 2022

深度神经网络训练的基准测试和分析

通过提出一个新的 deep neural networks 训练基准 (TBD)，并在三个主要的深度学习框架 (TensorFlow、MXNet、CNTK) 上进行广泛的性能分析，本文为 DNN 训练提供了一套新的分析工具集以及对未来研究和优化的建议。

Mar, 2018

深度学习模型的 CPU 和 GPU 性能分析比较

使用 Pytorch 实现深度神经网络时，本文通过分析 CPU 和 GPU 的时间和内存分配，显示 GPU 相比 CPU 在深度神经网络的训练中运行时间更短，但在简化网络中，GPU 相比 CPU 没有太多显著的改进。

Sep, 2023

张量处理单元的数据中心性能分析

本研究是对 Tensor Processing Unit (TPU) 这种加速神经网络 (NN) 推理阶段的定制 ASIC 进行的评估，与同样部署在数据中心的 Intel Haswell CPU 和 Nvidia K80 GPU 相比，TPU 在保证相应时间的情况下比 GPU 或 CPU 平均快 15 倍 - 30 倍，TOPS/Watt 比 GPU 提高近 70 倍，比 CPU 提高 200 倍。

Apr, 2017

GPU 上的分布式深度学习框架性能建模与评估

本研究通过评估四种最先进的分布式深度学习框架（即 Caffe-MPI，CNTK，MXNet 和 TensorFlow）在单 GPU、多 GPU 和多节点环境中的运行性能，基于 SGD 训练三种流行的卷积神经网络（即 AlexNet，GoogleNet 和 ResNet-50），分析了引起这四个框架性能差异的因素，并提出进一步优化方向。通过分析和实验研究，发现了可以进一步优化的瓶颈和开销，为算法设计和系统配置提供了改进方向。

Nov, 2017

代表性深度神经网络结构的基准分析

本研究分析了当前用于图像识别的大多数深度神经网络 (DNN) 的性能指标，包括识别准确率、模型复杂度、计算复杂度、内存使用和推断时间等，并通过在两种不同计算机架构上的实验来测量指标，以帮助研究者们了解目前已经研究探索的解决方案及其未来发展方向，并帮助从业者选择最适合其资源限制的 DNN 架构。

Oct, 2018

探索在 Google TPUs 上进行 ML 训练的并发限制

本文提出了一些技术来在 Google TPU Multipod 上扩展 ML 模型，讨论了模型并行处理，解决数据并行处理中批处理大小的扩展限制，以及一些性能优化方法，并用 TensorFlow 和 JAX 框架进行了演示，同时给出了 MLPerf-v0.7 竞赛结果，获得了四个 MLPerf 模型的最快训练时间记录。

Nov, 2020

探索 AI 应用中的 TPUs

本研究论文主要探讨了谷歌开发的专门用于深度学习的 Tensor Processing Units（TPUs）在边缘计算中的性能表现，研究了 TPUs 的设计、总体架构、编译技术和支持框架，并对云端和边缘 TPU 的性能进行了比较分析，结果显示 TPUs 在云端和边缘计算中都能显著提高性能。此外，文章还提到了在边缘 TPU 部署更多架构的需求，以及在边缘计算中进行更稳健比较的需求。

Sep, 2023