TPU v4: 具有嵌入式硬件支持的机器学习可重构超级计算机
本研究是对 Tensor Processing Unit (TPU) 这种加速神经网络 (NN) 推理阶段的定制 ASIC 进行的评估,与同样部署在数据中心的 Intel Haswell CPU 和 Nvidia K80 GPU 相比,TPU 在保证相应时间的情况下比 GPU 或 CPU 平均快 15 倍 - 30 倍,TOPS/Watt 比 GPU 提高近 70 倍,比 CPU 提高 200 倍。
Apr, 2017
介绍了一种用于矩阵向量乘法和求和的集成光子学 TPU,通过利用波长分割复用、纳秒级延迟和基于相变材料的光学多态存储器,结合这些材料、功能和系统的物理协同作用,展示了这种 8 位光子 TPU 的性能比电子 TPU 高 2-3 个数量级,而占用的芯片面积类似,表明光子专用处理器在增强电子系统方面具有潜力,并且在即将到来的 5G 网络及其后面的网络边缘设备中表现特别出色。
Feb, 2020
本文描述了如何将光计算和通信集成到 2.5D 芯片平台中,从而驱动一类新型的可持续扩展的机器学习硬件加速器,以加速新兴的机器学习工作负载,通过跨层设计、硬件 / 软件协同设计和硅光子设计制备。
Jan, 2023
本文提出了一些技术来在 Google TPU Multipod 上扩展 ML 模型,讨论了模型并行处理,解决数据并行处理中批处理大小的扩展限制,以及一些性能优化方法,并用 TensorFlow 和 JAX 框架进行了演示,同时给出了 MLPerf-v0.7 竞赛结果,获得了四个 MLPerf 模型的最快训练时间记录。
Nov, 2020
本研究论文主要探讨了谷歌开发的专门用于深度学习的 Tensor Processing Units(TPUs)在边缘计算中的性能表现,研究了 TPUs 的设计、总体架构、编译技术和支持框架,并对云端和边缘 TPU 的性能进行了比较分析,结果显示 TPUs 在云端和边缘计算中都能显著提高性能。此外,文章还提到了在边缘 TPU 部署更多架构的需求,以及在边缘计算中进行更稳健比较的需求。
Sep, 2023
采用硬件意识神经架构搜索,设计了一类适用于 Edge TPU 的计算机视觉模型,有效提升了实时图像分类性能并在像素 4 的边缘 TPU 上改善了精度 - 延迟权衡。
Mar, 2020
提出了一种新颖的异构混合信号混合精度架构,将 IMAC 单元与边缘 TPU 集成以提高移动 CNN 性能,借助 TPUs 卷积层和 IMAC 电路密集层的优势,设计了一种统一的混合精度训练算法,模拟结果表明,TPU-IMAC 构型在各种 CNN 模型中实现了高达 2.59 倍的性能提升和 88%的内存减少,同时保持了可比较的准确性。该架构对于边缘计算和移动设备中的实时处理等需要能源效率和高性能的应用具有潜在的影响。
Apr, 2023
本研究评估了在边缘 TPU 和嵌入式 GPU 处理器上基于医学图像的分割和分类的完全嵌入式医疗诊断辅助设备的能耗,以色视底图像的青光眼诊断为例展示了在嵌入式板上实时执行分割和分类的可能性,并强调了所研究实现的不同能源需求。
Nov, 2023
该论文介绍了基于 Tensor Processing Units(TPUs)上运行的完整张量程序(表示为计算图)的性能预测数据集 TpuGraphs,该数据集提供了大规模图的图级预测任务,涉及规模可比较的图属性预测数据集的 25 倍的图,以及平均比现有的机器学习程序性能预测数据集大 770 倍的大型图,从而带来了从可伸缩性、训练效率到模型质量等方面的新挑战。
Aug, 2023
本研究展示了如何通过调整启动方法和提前部署应用程序,克服任务调度和依赖关系等技术挑战,使用 LLSC 的大规模超级计算机在几秒内启动数千个任务,例如 32,000 个 TensorFlow 进程和 262,000 个 Octave 进程,进而快速研究新型机器学习架构和数据分析算法。
Jul, 2018