多核 NPUs 的张量切片和优化

Apr, 2023

Tensor Slicing and Optimization for Multicore NPUs

Rafael Sousa, Marcio Pereira, Yongin Kwon, Taeho Kim, Namsoon Jung...

TL;DR提出了一种用于高度约束的多核心神经处理器单元的 TensorFlow XLA/LLVM 编译器优化方法，名为 Tensor Slicing Optimization (TSO)，这种方法最大限度地提高了 NPU 核心的卷积并行性和内存使用率，并使用 DRAM 内存突发时间估计来指导张量切片，以减少主机和 NPU 芯片内存之间的数据传输，很大程度上缩短了执行时间。

Abstract

Although code generation for convolution neural network (CNN) models has been extensively studied, performing efficient data slicing and parallelization for highly-constrai\-ned multicore neural processor units (

convolution neural network multicore neural processor units tensor slicing optimization parallelism mac utilization

发现论文，激发创造

ZNN - 一个快速可扩展的算法，用于在多核和众核共享内存机器上训练 3D 卷积网络

本研究介绍了一种基于任务分解的并行算法 ZNN，它能够在计算机视觉中应用广泛的卷积神经网络中实现 PRAM 模型下的线性加速，通过时间局部化和一种几乎无等待的并发方法，此算法能够在共享内存机器上达到与物理核心数量相当的加速效果，适用于宽网络结构。此算法基于 CPU 的任务并行性，与 GPU 的 SIMD 并行性相比，ZNN 的开发和维护成本相对较低。

Oct, 2015

探索在 Google TPUs 上进行 ML 训练的并发限制

本文提出了一些技术来在 Google TPU Multipod 上扩展 ML 模型，讨论了模型并行处理，解决数据并行处理中批处理大小的扩展限制，以及一些性能优化方法，并用 TensorFlow 和 JAX 框架进行了演示，同时给出了 MLPerf-v0.7 竞赛结果，获得了四个 MLPerf 模型的最快训练时间记录。

Nov, 2020

张量处理单元的数据中心性能分析

本研究是对 Tensor Processing Unit (TPU) 这种加速神经网络 (NN) 推理阶段的定制 ASIC 进行的评估，与同样部署在数据中心的 Intel Haswell CPU 和 Nvidia K80 GPU 相比，TPU 在保证相应时间的情况下比 GPU 或 CPU 平均快 15 倍 - 30 倍，TOPS/Watt 比 GPU 提高近 70 倍，比 CPU 提高 200 倍。

Apr, 2017

从不同的候选者学习，在张量核上优化降低精度卷积程序

这篇论文提出了一种基于 Tensor Core 和 MMA 指令的卷积操作优化方法，该方法通过自动调度探索线程块和 warp 尺寸的搜索空间，包括寄存器级 Packing 和布局优化等选项，使用学习算法找到最佳调度，从而比现有技术在 Tensor Core 上实现了大幅度加速。

Feb, 2022

多核上的深层张量卷积

通过扩展和优化快速 Winograd 级卷积算法，我们在 CPU 硬件上最大化 CPU 利用率及多核可伸缩性，处理了视频和体积图像分析中的空时特征，并证明了与之前的最先进技术相比，吞吐量提高了 5 到 25 倍。

Nov, 2016

利用分布式内存驱动多核处理器加速稀疏和循环模型的训练

通过在分布式本地内存上使用稀疏和循环模型训练方法，我们观察到与 GPU 相比，使用 MIMD 处理器 (Intelligence Processing Unit) 的稀疏激活张量在训练负载上实现了 5-10 倍的吞吐量增益，且在训练收敛或最终模型性能上没有明显减慢。

Nov, 2023

实时大规模 ConvNets 的 0.3-2.6 TOPS/W 精度可扩展处理器

该研究实现了一种低功耗、可精确可扩展的卷积神经网络处理器，其充分利用卷积的稀疏性和动态精度可扩展性，实现了供应和能量缩放，能够在保持吞吐量的情况下最小化能量消耗，同时其实现的效率从 0.3-2.6 实际 TOPS/W，超越了同类产品达到 3.9 倍的能效。

Jun, 2016

支持弹性推理的复杂分析的模型切片成本和资源限制

本文提出一种称为模型切片的算法，通过将模型分割成多个组，使其能够在既定的计算资源预算内动态地提供预测结果，从而在有效地支持按需工作负载的基础上实现弹性推理成本。

Apr, 2019

超低功耗时间序列边缘推理的 TCN 映射优化

该论文介绍了一种基于自动探索方法和优化卷积核库的时间卷积网络应用于低功率微控制器上的策略，通过对层瓷砖的优化来达到最小延迟和能量消耗，实现了比其他常见方法更高效的时间序列分析方法。

Mar, 2022

用于 GPU 推断的 OoO VLIW JIT 编译器

该论文提出了一种基于 VLIW 架构的 JIT 编译器，在满足延迟 SLOs 要求的同时，通过运行时合并和重排执行内核来提高 GPU 的利用效率，并通过比较空间复用和时间复用的低效性，说明了通过空间合并可以达到可观的 7.7x 的机会差距。

Jan, 2019