Intel nGraph：深度学习的中间表示、编译器和执行器

Jan, 2018

Intel nGraph：深度学习的中间表示、编译器和执行器

Intel nGraph: An Intermediate Representation, Compiler, and Executor for Deep Learning

Scott Cyphers, Arjun K. Bansal, Anahita Bhiwandiwalla, Jayaram Bobba, Matthew Brookhart...

TL;DR通过创建一个名为 Intel nGraph 的 C++ 库，支持各种深度学习框架和硬件平台，以实现深度学习性能的优化，包括 TensorFlow、MXNet 和 Intel neon 框架，以及多个硬件平台和编译器优化。

Abstract

The deep learning (DL) community sees many novel topologies published each year. Achieving high performance on each new topology remains challenging, as each requires some level of manual effort. This issue is co

deep learning optimization frameworks hardware platforms performance

发现论文，激发创造

深度图库：面向图的、高性能的图神经网络包

本文介绍了 Deep Graph Library（DGL）的设计原则和实现方法，DGL 将 GNNs 的计算模式提炼成几个泛化的稀疏张量操作，适合大规模并行化。DGL 以图形为中心编程抽象，能够透明地进行优化。同时 DGL 采用了框架中立的设计，允许用户在多个深度学习框架中轻松移植和利用现有的组件。我们的评估表明，在各种基准测试中，DGL 在速度和内存消耗方面都显著优于其他流行的面向 GNNs 的框架，并且对于小规模工作负载的开销很小。

Sep, 2019

面向神经网络推理加速的编译器和 FPGA 叠加

本研究介绍一种针对深度神经网络推理的覆盖层，通过引入一种轻量级的超长指令字（VLIW）网络支持控制和重新编程逻辑，以及实现了一个复杂的特定领域的图形编译器，以显著提高 CNNs/RNNs 的性能，最终在 Intel Arria 10 1150 上实现了～900 fps，并且对比以往研究，在性能方面有了巨大的进步。

Jul, 2018

nGraph-HE: 一种基于同态加密数据的深度学习图编译器

Intel's nGraph-HE, an extension of nGraph, enables the deployment of deep learning models on ciphertext using homomorphic encryption as a hardware target, allowing DL-aware optimizations and integration with popular frameworks such as TensorFlow to benchmark models with minimal overhead.

Oct, 2018

优化 CPU 上 CNN 模型的推理

本研究提出了一种名为 'NeoCPU' 的综合方法，通过对模板进行优化实现卷积神经网络模型的 CPU 推理，而不是依赖第三方库来实现模型图的单独操作优化，从而通过操作级别和图级别同时优化来进一步提高性能。实验结果表明，与当前各种流行 CPU 上的最先进实现相比，NeoCPU 的卷积神经网络模型推理延迟可降低 3.45 倍。

Sep, 2018

PowerFusion：一种具有显式数据移动描述和指令级图形 IR 的张量编译器

本文提出 IntelliGen 这样一个基于 GIR 表示的张量编译器，该编译器通过综合优化不同的内存访问模式和计算操作，能够针对内存密集运算符生成高性能代码，相比当前最有效的框架，IntelliGen 在 NVIDIA GPU、AMD GPU、Cambricon MLU 上的速度提升分别达到了 1.97x、2.93x 和 16.91x。

Jul, 2023

nGraph-HE2：用于加密数据上的神经网络推断的高吞吐量框架

nGraph-HE2 是一种扩展 nGraph-HE 的框架，利用 CKKS 方案和双方计算方法，实现了隐私保护的图像识别，支持使用原生激活函数和实数，经过优化可以达到 state-of-the-art 的吞吐量，成功实现了对最大的预训练 MobileNetV2 模型在 ImageNet 数据集上的同态评估，准确率完全相当。

Aug, 2019

迈向具备上游 MLIR 的高性能 AI 编译器

该研究提出了一种使用开源编译器的编译流程，构建一个框架，实现从通用的线性代数高级抽象中获得忍者级性能。通过用 TensorFlow 和 PyTorch 中的 Linalg-on-Tensor 中的输入 IR，执行缓存级优化和降低到微内核以实现高效矢量化，实现了超过 90% 与忍者编写等效程序性能的概念证明 MLIR 项目。该研究的贡献包括：（1）在张量方言上对基元进行打包以及用于缓存感知张量（单核和多核）的传播以及类型感知指令（VNNI、BFDOT、BFMMLA）的传播，包括在整个函数中进行形状传播；（2）线性代数流水线，包括切片、融合和缓冲策略，将模型级 IR 转化为硬件友好的切片调用；（3）将微内核降级到支持各种 CPU 的开源库的机制。

Apr, 2024

INR-Arch：隐式神经表达处理中的任意阶梯度计算的数据流架构与编译器

本文介绍了一个硬件优化的数据流架构，用于将计算图形的高阶梯度转化为硬件优化；该架构通过设计一个使用 FIFO 流和优化计算内核库的数据流架构，并提出一个编译器来提取和优化计算图形，以实现最大吞吐量，同时确保无死锁操作，并输出 FPGA 实现的高级综合（HLS）代码，从而实现了 1.8-4.8 倍和 1.5-3.6 倍的加速比，以及较低的内存使用率和能耗延迟乘积。

Aug, 2023

DNNVM: FPGA-based CNN 加速器上利用异构优化的端到端编译器

本文提出了用于深度学习框架的全栈编译器 DNNVM，通过优化图表现形式、循环和数据布局、关键算法和支持验证等，将复杂的 CNN 模型转换成有向无环图（XGraph）并利用启发式子图同构算法枚举所有潜在的融合机会，并在全计算图中搜索执行策略的最佳选择，在 Xilinx ZU9 @330 MHz 等设备上实现了与最新算法同等状态的性能，最终在 VGG 和 ResNet50 上达到了最先进的性能。

Feb, 2019

深度学习系统的超高性能和能量效率：一种算法 - 硬件协同优化框架

本文旨在实现深度神经网络硬件实现的超高能效和性能，提出一种面向不同类型、大小和应用场景的 DNN 算法 - 硬件协同优化框架，并在硬件部分采用高效的 FPGA 实现，实验表明与 IBM TrueNorth 处理器和参考的 FPGA 实现相比，该框架至少实现了 152 倍的加速和 71 倍的能效增益。

Feb, 2018