迈向具备上游 MLIR 的高性能 AI 编译器

Apr, 2024

迈向具备上游 MLIR 的高性能 AI 编译器

Towards a high-performance AI compiler with upstream MLIR

Renato Golin, Lorenzo Chelini, Adam Siemieniuk, Kavitha Madhu, Niranjan Hasabnis...

TL;DR该研究提出了一种使用开源编译器的编译流程，构建一个框架，实现从通用的线性代数高级抽象中获得忍者级性能。通过用 TensorFlow 和 PyTorch 中的 Linalg-on-Tensor 中的输入 IR，执行缓存级优化和降低到微内核以实现高效矢量化，实现了超过 90% 与忍者编写等效程序性能的概念证明 MLIR 项目。该研究的贡献包括：（1）在张量方言上对基元进行打包以及用于缓存感知张量（单核和多核）的传播以及类型感知指令（VNNI、BFDOT、BFMMLA）的传播，包括在整个函数中进行形状传播；（2）线性代数流水线，包括切片、融合和缓冲策略，将模型级 IR 转化为硬件友好的切片调用；（3）将微内核降级到支持各种 CPU 的开源库的机制。

Abstract

This work proposes a compilation flow using open-source compiler passes to build a framework to achieve ninja performance from a generic linear algebra →

compilation flow linear algebra high-level abstraction cache-level optimizations micro-kernels

发现论文，激发创造

TPU-MLIR：使用 MLIR 的 TPU 编译器

本篇研究利用多层中间表示（MLIR）提供可重用和可扩展的编译器基础，并提出 TPU-MLIR，通过两个新的方言（Tensor 操作和 TPU 内核）将神经网络模型部署到自定义 ASIC，使用 MLIR 传递管道在 TPU 上进行优化以生成机器代码。

Oct, 2022

TensorIR：自动张量程序优化的抽象

该论文介绍了 TensorIR 编译器抽象，用于优化具有张量计算原语的程序，通过 TensorIR 编译可以自动化优化深度学习模型，实验结果表明 TensorIR 编译使用特定的硬件后端的张量计算原语，并在各平台上提供了与手动优化系统相当的性能竞争力。

Jul, 2022

Intel nGraph：深度学习的中间表示、编译器和执行器

通过创建一个名为 Intel nGraph 的 C++ 库，支持各种深度学习框架和硬件平台，以实现深度学习性能的优化，包括 TensorFlow、MXNet 和 Intel neon 框架，以及多个硬件平台和编译器优化。

Jan, 2018

MLIR：摩尔定律终结的编译器基础设施

MLIR 是一种新型的编译器基础结构方法，旨在通过适应不同应用域、硬件目标和执行环境的代码生成器、转换器和优化器，解决软件碎片化问题，改善异构硬件编译，显著降低领域特定编译器的构建成本，促进现有编译器的连接，同时提供扩展和演进的研究工具。

Feb, 2020

PowerFusion：一种具有显式数据移动描述和指令级图形 IR 的张量编译器

本文提出 IntelliGen 这样一个基于 GIR 表示的张量编译器，该编译器通过综合优化不同的内存访问模式和计算操作，能够针对内存密集运算符生成高性能代码，相比当前最有效的框架，IntelliGen 在 NVIDIA GPU、AMD GPU、Cambricon MLU 上的速度提升分别达到了 1.97x、2.93x 和 16.91x。

Jul, 2023

下一步的 700 个 ML 启用的编译器优化

我们提出了 ML-Compiler-Bridge，利用传统的 Python 框架，实现了 ML 模型在优化编译器中的开发和高效的端到端集成。通过在多个优化问题、多个编译器及其版本和 gym 基础设施上进行研究和生产应用的评估，解决了模块化、性能和框架独立性等挑战。

Nov, 2023

MLIR 的机器学习驱动硬件成本模型

我们开发了一种基于机器学习的成本模型，针对高级 MLIR 的不同目标变量进行预测，以更准确地指导我们的深度学习编译器在运算符融合、本地内存分配、内核调度等领域进行图级优化，以及在循环互换、LICM 和展开等内核级优化中使用。

Feb, 2023

INR-Arch：隐式神经表达处理中的任意阶梯度计算的数据流架构与编译器

本文介绍了一个硬件优化的数据流架构，用于将计算图形的高阶梯度转化为硬件优化；该架构通过设计一个使用 FIFO 流和优化计算内核库的数据流架构，并提出一个编译器来提取和优化计算图形，以实现最大吞吐量，同时确保无死锁操作，并输出 FPGA 实现的高级综合（HLS）代码，从而实现了 1.8-4.8 倍和 1.5-3.6 倍的加速比，以及较低的内存使用率和能耗延迟乘积。

Aug, 2023

LeFlow：灵活的 FPGA 张量流深度神经网络高层合成

本文介绍一种基于 Tensorflow 的开源工具流，可以将数值计算模型映射到可合成硬件，从而生成深度神经网络。这种工具流使用户可以用很少的 Python 代码生成计算深度神经网络。

Jul, 2018

mlirSynth: 自动的，可重新定位的多级 IR 中的程序提升，使用程序综合

使用可用的方言定义和类型约束，mlirSynth 实现了将低级 MLIR 方言转化为高级方言的程序翻译方法，并在 C 程序和领域特定加速器中展示了其有效性。

Oct, 2023