通过微基准测试解析 NVidia Turing T4 GPU
通过微基准测试和指令集反汇编,揭示了新型 NVIDIA Volta 架构在微观结构层面的细节,并与其前身 Kepler、Maxwell 和 Pascal 进行了数量化比较。
Apr, 2018
本文介绍了 NVIDIA Volta GPU 微架构中一种特殊的处理器 Tensor Core,它能够在每个时钟周期内对 4x4 矩阵执行一个矩阵乘积累加操作,经过测试,我们发现 NVIDIA Tensor Core 在 Tesla V100 GPU 上能够以混合精度提供 83 Tflops/s 的处理速度,使得 HPC 应用的矩阵乘法能够获得显著的性能提升。
Mar, 2018
本研究是对 Tensor Processing Unit (TPU) 这种加速神经网络 (NN) 推理阶段的定制 ASIC 进行的评估,与同样部署在数据中心的 Intel Haswell CPU 和 Nvidia K80 GPU 相比,TPU 在保证相应时间的情况下比 GPU 或 CPU 平均快 15 倍 - 30 倍,TOPS/Watt 比 GPU 提高近 70 倍,比 CPU 提高 200 倍。
Apr, 2017
谷歌推出新的 TPU v4 超级计算机,采用光路电路交换和 SparseCores 等技术,提高了机器学习模型的性能和能源效率。
Apr, 2023
本文讲述了研究者探讨替代循环神经网络的新架构(如基于注意力或卷积的架构)的计算能力,通过研究 Transformer 和 Neural GPU 的计算能力,发现这两种模型都可以纯粹依靠计算和访问数据的内部密集表示而成为图灵完备的,而不需要外部存储器。
Jan, 2019
本文测试了摩尔定律和丹纳德定律的效力,发现虽然晶体管的缩小仍然是很关键的,但架构方案也变得越来越重要,并且 GPU 在性能上优于 CPU,但得益于 CPU 的新的 SIMD 扩展和核心数量的增加,GPU 和 CPU 在性能上的比例逐渐接近。
Nov, 2019
通过使用新一代 GPU 芯片中的张量核心实现 “二值神经网络” 设计中点乘和卷积的操作,使其在处理 ImageNet 数据集时比现有软件实现快出 77%,从而显著提高性能。
Jun, 2020
本文介绍了新型、大规模并行平台 —— 智能处理单元(IPU)的架构和性能,并使用受其目的所驱动的微基准测试来剖析 IPU 的性能行为,同时研究了 IPU 的内存组织和性能、芯片内部和外部互连提供的延迟和带宽、计算能力以及与理论极限相比的实际性能表现,旨在为读者提供简单的心理模型,以便根据涉及的计算和通信步骤来预测应用程序在 IPU 上的性能。
Dec, 2019
这篇研究论文介绍了一个参数化基准套件 Paradnn,用于评估深度学习平台性能,重点评估了谷歌 Cloud TPU v2/v3、英伟达 V100 GPU 和英特尔 Skylake CPU 平台,在针对每种平台引入特殊软件技术栈的情况下,对每种类型的模型的专门优势进行了量化比较。
Jul, 2019
本研究提出一种神经网络结构 —— 神经 GPU 来解决 Neural Turing Machine 中存在的训练难题,实现了对于尺寸不确定的输入进行算法训练,并能成功地推广到更长的算法实例中。通过参数共享放松、少量的 dropout 和渐变噪声的技术应用,神经 GPU 在训练和泛化方面收到了显著的正面效应。
Nov, 2015