Intel nGraph:深度学习的中间表示、编译器和执行器
本文介绍了 Deep Graph Library(DGL)的设计原则和实现方法,DGL 将 GNNs 的计算模式提炼成几个泛化的稀疏张量操作,适合大规模并行化。DGL 以图形为中心编程抽象,能够透明地进行优化。同时 DGL 采用了框架中立的设计,允许用户在多个深度学习框架中轻松移植和利用现有的组件。我们的评估表明,在各种基准测试中,DGL 在速度和内存消耗方面都显著优于其他流行的面向 GNNs 的框架,并且对于小规模工作负载的开销很小。
Sep, 2019
本研究介绍一种针对深度神经网络推理的覆盖层,通过引入一种轻量级的超长指令字(VLIW)网络支持控制和重新编程逻辑,以及实现了一个复杂的特定领域的图形编译器,以显著提高 CNNs/RNNs 的性能,最终在 Intel Arria 10 1150 上实现了~900 fps,并且对比以往研究,在性能方面有了巨大的进步。
Jul, 2018
Intel's nGraph-HE, an extension of nGraph, enables the deployment of deep learning models on ciphertext using homomorphic encryption as a hardware target, allowing DL-aware optimizations and integration with popular frameworks such as TensorFlow to benchmark models with minimal overhead.
Oct, 2018
本研究提出了一种名为 'NeoCPU' 的综合方法,通过对模板进行优化实现卷积神经网络模型的 CPU 推理,而不是依赖第三方库来实现模型图的单独操作优化,从而通过操作级别和图级别同时优化来进一步提高性能。实验结果表明,与当前各种流行 CPU 上的最先进实现相比,NeoCPU 的卷积神经网络模型推理延迟可降低 3.45 倍。
Sep, 2018
本文提出 IntelliGen 这样一个基于 GIR 表示的张量编译器,该编译器通过综合优化不同的内存访问模式和计算操作,能够针对内存密集运算符生成高性能代码,相比当前最有效的框架,IntelliGen 在 NVIDIA GPU、AMD GPU、Cambricon MLU 上的速度提升分别达到了 1.97x、2.93x 和 16.91x。
Jul, 2023
nGraph-HE2 是一种扩展 nGraph-HE 的框架,利用 CKKS 方案和双方计算方法,实现了隐私保护的图像识别,支持使用原生激活函数和实数,经过优化可以达到 state-of-the-art 的吞吐量,成功实现了对最大的预训练 MobileNetV2 模型在 ImageNet 数据集上的同态评估,准确率完全相当。
Aug, 2019
该研究提出了一种使用开源编译器的编译流程,构建一个框架,实现从通用的线性代数高级抽象中获得忍者级性能。通过用 TensorFlow 和 PyTorch 中的 Linalg-on-Tensor 中的输入 IR,执行缓存级优化和降低到微内核以实现高效矢量化,实现了超过 90% 与忍者编写等效程序性能的概念证明 MLIR 项目。该研究的贡献包括:(1)在张量方言上对基元进行打包以及用于缓存感知张量(单核和多核)的传播以及类型感知指令(VNNI、BFDOT、BFMMLA)的传播,包括在整个函数中进行形状传播;(2)线性代数流水线,包括切片、融合和缓冲策略,将模型级 IR 转化为硬件友好的切片调用;(3)将微内核降级到支持各种 CPU 的开源库的机制。
Apr, 2024
本文介绍了一个硬件优化的数据流架构,用于将计算图形的高阶梯度转化为硬件优化;该架构通过设计一个使用 FIFO 流和优化计算内核库的数据流架构,并提出一个编译器来提取和优化计算图形,以实现最大吞吐量,同时确保无死锁操作,并输出 FPGA 实现的高级综合(HLS)代码,从而实现了 1.8-4.8 倍和 1.5-3.6 倍的加速比,以及较低的内存使用率和能耗延迟乘积。
Aug, 2023
本文提出了用于深度学习框架的全栈编译器 DNNVM,通过优化图表现形式、循环和数据布局、关键算法和支持验证等,将复杂的 CNN 模型转换成有向无环图(XGraph)并利用启发式子图同构算法枚举所有潜在的融合机会,并在全计算图中搜索执行策略的最佳选择, 在 Xilinx ZU9 @330 MHz 等设备上实现了与最新算法同等状态的性能,最终在 VGG 和 ResNet50 上达到了最先进的性能。
Feb, 2019
本文旨在实现深度神经网络硬件实现的超高能效和性能,提出一种面向不同类型、大小和应用场景的 DNN 算法 - 硬件协同优化框架,并在硬件部分采用高效的 FPGA 实现,实验表明与 IBM TrueNorth 处理器和参考的 FPGA 实现相比,该框架至少实现了 152 倍的加速和 71 倍的能效增益。
Feb, 2018