Apr, 2023

多核 NPUs 的张量切片和优化

TL;DR提出了一种用于高度约束的多核心神经处理器单元的 TensorFlow XLA/LLVM 编译器优化方法,名为 Tensor Slicing Optimization (TSO),这种方法最大限度地提高了 NPU 核心的卷积并行性和内存使用率,并使用 DRAM 内存突发时间估计来指导张量切片,以减少主机和 NPU 芯片内存之间的数据传输,很大程度上缩短了执行时间。