通过微基准测试解析 NVidia Turing T4 GPU

Mar, 2019

通过微基准测试解析 NVidia Turing T4 GPU

Dissecting the NVidia Turing T4 GPU via Microbenchmarking

Zhe Jia, Marco Maggioni, Jeffrey Smith, Daniele Paolo Scarpazza

TL;DR通过使用微基准测试来研究图形处理器的体系结构，本研究揭示了最新的 Turing 架构相比先前的 Nvidia GPU 生成量的优劣，并研究了针对推理应用的 T4 GPU 的性能。

Abstract

In 2019, the rapid rate at which GPU manufacturers refresh their designs, coupled with their reluctance to disclose microarchitectural details, is still a hurdle for those software designers who want to extract the highest possible performance. Last year, these very reasons motivated us to dissect the Volta →

gpu architecture turing microbenchmarks inference applications tensorcores

发现论文，激发创造

通过微基准测试解剖 NVIDIA Volta GPU 架构

通过微基准测试和指令集反汇编，揭示了新型 NVIDIA Volta 架构在微观结构层面的细节，并与其前身 Kepler、Maxwell 和 Pascal 进行了数量化比较。

Apr, 2018

NVIDIA Tensor Core 可编程性、性能和精度

本文介绍了 NVIDIA Volta GPU 微架构中一种特殊的处理器 Tensor Core，它能够在每个时钟周期内对 4x4 矩阵执行一个矩阵乘积累加操作，经过测试，我们发现 NVIDIA Tensor Core 在 Tesla V100 GPU 上能够以混合精度提供 83 Tflops/s 的处理速度，使得 HPC 应用的矩阵乘法能够获得显著的性能提升。

Mar, 2018

张量处理单元的数据中心性能分析

本研究是对 Tensor Processing Unit (TPU) 这种加速神经网络 (NN) 推理阶段的定制 ASIC 进行的评估，与同样部署在数据中心的 Intel Haswell CPU 和 Nvidia K80 GPU 相比，TPU 在保证相应时间的情况下比 GPU 或 CPU 平均快 15 倍 - 30 倍，TOPS/Watt 比 GPU 提高近 70 倍，比 CPU 提高 200 倍。

Apr, 2017

TPU v4: 具有嵌入式硬件支持的机器学习可重构超级计算机

谷歌推出新的 TPU v4 超级计算机，采用光路电路交换和 SparseCores 等技术，提高了机器学习模型的性能和能源效率。

Apr, 2023

现代神经网络结构的图灵完备性

本文讲述了研究者探讨替代循环神经网络的新架构（如基于注意力或卷积的架构）的计算能力，通过研究 Transformer 和 Neural GPU 的计算能力，发现这两种模型都可以纯粹依靠计算和访问数据的内部密集表示而成为图灵完备的，而不需要外部存储器。

Jan, 2019

使用产品数据总结 CPU 和 GPU 设计趋势

本文测试了摩尔定律和丹纳德定律的效力，发现虽然晶体管的缩小仍然是很关键的，但架构方案也变得越来越重要，并且 GPU 在性能上优于 CPU，但得益于 CPU 的新的 SIMD 扩展和核心数量的增加，GPU 和 CPU 在性能上的比例逐渐接近。

Nov, 2019

使用图灵 GPU 中的位张量核加速二值神经网络

通过使用新一代 GPU 芯片中的张量核心实现 “二值神经网络” 设计中点乘和卷积的操作，使其在处理 ImageNet 数据集时比现有软件实现快出 77％，从而显著提高性能。

Jun, 2020

通过微基准测试解剖 Graphcore IPU 架构

本文介绍了新型、大规模并行平台 —— 智能处理单元（IPU）的架构和性能，并使用受其目的所驱动的微基准测试来剖析 IPU 的性能行为，同时研究了 IPU 的内存组织和性能、芯片内部和外部互连提供的延迟和带宽、计算能力以及与理论极限相比的实际性能表现，旨在为读者提供简单的心理模型，以便根据涉及的计算和通信步骤来预测应用程序在 IPU 上的性能。

Dec, 2019

深度学习中 TPU、GPU 和 CPU 平台的基准测试

这篇研究论文介绍了一个参数化基准套件 Paradnn，用于评估深度学习平台性能，重点评估了谷歌 Cloud TPU v2/v3、英伟达 V100 GPU 和英特尔 Skylake CPU 平台，在针对每种平台引入特殊软件技术栈的情况下，对每种类型的模型的专门优势进行了量化比较。

Jul, 2019

神经 GPU 学习算法

本研究提出一种神经网络结构 —— 神经 GPU 来解决 Neural Turing Machine 中存在的训练难题，实现了对于尺寸不确定的输入进行算法训练，并能成功地推广到更长的算法实例中。通过参数共享放松、少量的 dropout 和渐变噪声的技术应用，神经 GPU 在训练和泛化方面收到了显著的正面效应。

Nov, 2015