深度学习编译器：综述

Feb, 2020

The Deep Learning Compiler: A Comprehensive Survey

Mingzhen Li, Yi Liu, Xiaoyan Liu, Qingxiao Sun, Xin You...

TL;DR本研究综合调查了现有的 DL 编译器，重点关注了 DL 导向的多层 IR 设计和前端 / 后端优化，提供了各方面的全面比较，并且阐述了常见的优化技术以及潜在的研究方向。

Abstract

The difficulty of deploying various deep learning (DL) models on diverse DL hardware has boosted the research and development of dl compilers in the community. Several →

deep learning dl compilers multi-level irs frontend/backend optimizations research directions

发现论文，激发创造

DyCL: 通过程序重写和图优化实现动态神经网络编译

提出一种名为 “ool” 的方法，通过程序分析和转换技术将动态神经网络转化为多个子神经网络，使得现有的 DL 编译器成功编译动态神经网络实现更好的性能。

Jul, 2023

编译器优化中的机器学习

介绍机器学习与编译器优化的关系，并提供了特征、模型、训练和部署的主要概念。对目前不同的研究领域进行了全面调查和路线图，并讨论了该领域的未解决问题和潜在研究方向。本文提供了机器学习基础编译的易于理解的介绍和主要成果的详细文献。

May, 2018

基于设计自动化的快速、轻量化和高效的深度学习模型：一项调查

该研究综述了针对边缘计算的深度学习模型设计自动化技术，包括自动神经架构搜索、自动模型压缩和联合自动设计和压缩，并提出了未来研究的方向。

Aug, 2022

异构架构深度学习加速设计方法综述

深度学习加速器的设计方法和电子设计自动化工具经过综合评估，为实现高性能和能源效率提供了全面的视角。

Nov, 2023

下一步的 700 个 ML 启用的编译器优化

我们提出了 ML-Compiler-Bridge，利用传统的 Python 框架，实现了 ML 模型在优化编译器中的开发和高效的端到端集成。通过在多个优化问题、多个编译器及其版本和 gym 基础设施上进行研究和生产应用的评估，解决了模块化、性能和框架独立性等挑战。

Nov, 2023

异构 HPC 平台深度学习硬件加速器调查

该论文概述了近年来深度学习加速器的最新进展，并分类了最具影响力的架构和技术，以便提供给读者一个全面的视角，最终提供了一些关于深度学习加速器未来挑战的见解，例如量子加速器和光子学。

Jun, 2023

MLIR：摩尔定律终结的编译器基础设施

MLIR 是一种新型的编译器基础结构方法，旨在通过适应不同应用域、硬件目标和执行环境的代码生成器、转换器和优化器，解决软件碎片化问题，改善异构硬件编译，显著降低领域特定编译器的构建成本，促进现有编译器的连接，同时提供扩展和演进的研究工具。

Feb, 2020

TVM：深度学习自动化端到端优化编译器

TVM 是一个深度学习编译器，可将深度学习工作负载在各种硬件后端上具有良好的性能移植性，通过学习基于成本模型的方法，自动进行低级程序的硬件特征优化，实验结果表明，TVM 在处理低功率 CPU、移动 GPU 和服务器级 GPU 的竞争性能与手工调优库类似，并能定位到新的加速器后端，如基于 FPGA 的深度学习通用加速器。

Feb, 2018

MLIR 的机器学习驱动硬件成本模型

我们开发了一种基于机器学习的成本模型，针对高级 MLIR 的不同目标变量进行预测，以更准确地指导我们的深度学习编译器在运算符融合、本地内存分配、内核调度等领域进行图级优化，以及在循环互换、LICM 和展开等内核级优化中使用。

Feb, 2023

在 CPU 体系结构上通过高级循环和张量抽象利用深度学习和 HPC 核心技术

该研究提出了一种用于开发高效、可移植的深度学习和高性能计算内核的框架，通过使用 Tensor Processing Primitives (TPPs) 表达计算核心，并通过简单的旋钮确定精确的实例化，我们在不同的 CPU 平台上展示了单独的核心和端到端工作负载，超越了现有技术的实现。

Apr, 2023