深度学习编译器:综述
提出一种名为 “ool” 的方法,通过程序分析和转换技术将动态神经网络转化为多个子神经网络,使得现有的 DL 编译器成功编译动态神经网络实现更好的性能。
Jul, 2023
介绍机器学习与编译器优化的关系,并提供了特征、模型、训练和部署的主要概念。对目前不同的研究领域进行了全面调查和路线图,并讨论了该领域的未解决问题和潜在研究方向。本文提供了机器学习基础编译的易于理解的介绍和主要成果的详细文献。
May, 2018
该研究综述了针对边缘计算的深度学习模型设计自动化技术,包括自动神经架构搜索、自动模型压缩和联合自动设计和压缩,并提出了未来研究的方向。
Aug, 2022
我们提出了 ML-Compiler-Bridge,利用传统的 Python 框架,实现了 ML 模型在优化编译器中的开发和高效的端到端集成。通过在多个优化问题、多个编译器及其版本和 gym 基础设施上进行研究和生产应用的评估,解决了模块化、性能和框架独立性等挑战。
Nov, 2023
该论文概述了近年来深度学习加速器的最新进展,并分类了最具影响力的架构和技术,以便提供给读者一个全面的视角,最终提供了一些关于深度学习加速器未来挑战的见解,例如量子加速器和光子学。
Jun, 2023
MLIR 是一种新型的编译器基础结构方法,旨在通过适应不同应用域、硬件目标和执行环境的代码生成器、转换器和优化器,解决软件碎片化问题,改善异构硬件编译,显著降低领域特定编译器的构建成本,促进现有编译器的连接,同时提供扩展和演进的研究工具。
Feb, 2020
TVM 是一个深度学习编译器,可将深度学习工作负载在各种硬件后端上具有良好的性能移植性,通过学习基于成本模型的方法,自动进行低级程序的硬件特征优化,实验结果表明,TVM 在处理低功率 CPU、移动 GPU 和服务器级 GPU 的竞争性能与手工调优库类似,并能定位到新的加速器后端,如基于 FPGA 的深度学习通用加速器。
Feb, 2018
我们开发了一种基于机器学习的成本模型,针对高级 MLIR 的不同目标变量进行预测,以更准确地指导我们的深度学习编译器在运算符融合、本地内存分配、内核调度等领域进行图级优化,以及在循环互换、LICM 和展开等内核级优化中使用。
Feb, 2023
该研究提出了一种用于开发高效、可移植的深度学习和高性能计算内核的框架,通过使用 Tensor Processing Primitives (TPPs) 表达计算核心,并通过简单的旋钮确定精确的实例化,我们在不同的 CPU 平台上展示了单独的核心和端到端工作负载,超越了现有技术的实现。
Apr, 2023