TPU v4: 具有嵌入式硬件支持的机器学习可重构超级计算机

Apr, 2023

TPU v4: 具有嵌入式硬件支持的机器学习可重构超级计算机

TPU v4: An Optically Reconfigurable Supercomputer for Machine Learning with Hardware Support for Embeddings

Norman P. Jouppi, George Kurian, Sheng Li, Peter Ma, Rahul Nagarajan...

TL;DR谷歌推出新的 TPU v4 超级计算机，采用光路电路交换和 SparseCores 等技术，提高了机器学习模型的性能和能源效率。

Abstract

In response to innovations in machine learning (ML) models, production workloads changed radically and rapidly. tpu v4 is the fifth Google domain specific architecture (DSA) and its third supercomputer for such ML models. →

tpu v4 machine learning models optical circuit switches sparsecores energy-optimized

发现论文，激发创造

张量处理单元的数据中心性能分析

本研究是对 Tensor Processing Unit (TPU) 这种加速神经网络 (NN) 推理阶段的定制 ASIC 进行的评估，与同样部署在数据中心的 Intel Haswell CPU 和 Nvidia K80 GPU 相比，TPU 在保证相应时间的情况下比 GPU 或 CPU 平均快 15 倍 - 30 倍，TOPS/Watt 比 GPU 提高近 70 倍，比 CPU 提高 200 倍。

Apr, 2017

用于机器学习的光子张量核心

介绍了一种用于矩阵向量乘法和求和的集成光子学 TPU，通过利用波长分割复用、纳秒级延迟和基于相变材料的光学多态存储器，结合这些材料、功能和系统的物理协同作用，展示了这种 8 位光子 TPU 的性能比电子 TPU 高 2-3 个数量级，而占用的芯片面积类似，表明光子专用处理器在增强电子系统方面具有潜力，并且在即将到来的 5G 网络及其后面的网络边缘设备中表现特别出色。

Feb, 2020

2.5D 芯片平台中的硅光子学机器学习加速器

本文描述了如何将光计算和通信集成到 2.5D 芯片平台中，从而驱动一类新型的可持续扩展的机器学习硬件加速器，以加速新兴的机器学习工作负载，通过跨层设计、硬件 / 软件协同设计和硅光子设计制备。

Jan, 2023

探索在 Google TPUs 上进行 ML 训练的并发限制

本文提出了一些技术来在 Google TPU Multipod 上扩展 ML 模型，讨论了模型并行处理，解决数据并行处理中批处理大小的扩展限制，以及一些性能优化方法，并用 TensorFlow 和 JAX 框架进行了演示，同时给出了 MLPerf-v0.7 竞赛结果，获得了四个 MLPerf 模型的最快训练时间记录。

Nov, 2020

探索 AI 应用中的 TPUs

本研究论文主要探讨了谷歌开发的专门用于深度学习的 Tensor Processing Units（TPUs）在边缘计算中的性能表现，研究了 TPUs 的设计、总体架构、编译技术和支持框架，并对云端和边缘 TPU 的性能进行了比较分析，结果显示 TPUs 在云端和边缘计算中都能显著提高性能。此外，文章还提到了在边缘 TPU 部署更多架构的需求，以及在边缘计算中进行更稳健比较的需求。

Sep, 2023

使用 AutoML 实现加速器感知的神经网络设计

采用硬件意识神经架构搜索，设计了一类适用于 Edge TPU 的计算机视觉模型，有效提升了实时图像分类性能并在像素 4 的边缘 TPU 上改善了精度 - 延迟权衡。

Mar, 2020

内存模拟计算架构与张量处理单元的异构集成

提出了一种新颖的异构混合信号混合精度架构，将 IMAC 单元与边缘 TPU 集成以提高移动 CNN 性能，借助 TPUs 卷积层和 IMAC 电路密集层的优势，设计了一种统一的混合精度训练算法，模拟结果表明，TPU-IMAC 构型在各种 CNN 模型中实现了高达 2.59 倍的性能提升和 88％的内存减少，同时保持了可比较的准确性。该架构对于边缘计算和移动设备中的实时处理等需要能源效率和高性能的应用具有潜在的影响。

Apr, 2023

Edge TPU 与嵌入式 GPU 在计算辅助医学影像分割和分类中的能效对比

本研究评估了在边缘 TPU 和嵌入式 GPU 处理器上基于医学图像的分割和分类的完全嵌入式医疗诊断辅助设备的能耗，以色视底图像的青光眼诊断为例展示了在嵌入式板上实时执行分割和分类的可能性，并强调了所研究实现的不同能源需求。

Nov, 2023

TpuGraphs: 大型张量计算图的性能预测数据集

该论文介绍了基于 Tensor Processing Units（TPUs）上运行的完整张量程序（表示为计算图）的性能预测数据集 TpuGraphs，该数据集提供了大规模图的图级预测任务，涉及规模可比较的图属性预测数据集的 25 倍的图，以及平均比现有的机器学习程序性能预测数据集大 770 倍的大型图，从而带来了从可伸缩性、训练效率到模型质量等方面的新挑战。

Aug, 2023

使用 40,000 颗核心进行交互式超级计算，用于机器学习和数据分析

本研究展示了如何通过调整启动方法和提前部署应用程序，克服任务调度和依赖关系等技术挑战，使用 LLSC 的大规模超级计算机在几秒内启动数千个任务，例如 32,000 个 TensorFlow 进程和 262,000 个 Octave 进程，进而快速研究新型机器学习架构和数据分析算法。

Jul, 2018