优化 CPU 上 CNN 模型的推理

Sep, 2018

Optimizing CNN Model Inference on CPUs

Yizhi Liu, Yao Wang, Ruofei Yu, Mu Li, Vin Sharma...

TL;DR本研究提出了一种名为 'NeoCPU' 的综合方法，通过对模板进行优化实现卷积神经网络模型的 CPU 推理，而不是依赖第三方库来实现模型图的单独操作优化，从而通过操作级别和图级别同时优化来进一步提高性能。实验结果表明，与当前各种流行 CPU 上的最先进实现相比，NeoCPU 的卷积神经网络模型推理延迟可降低 3.45 倍。

Abstract

The popularity of convolutional neural network (cnn) models and the ubiquity of CPUs imply that better performance of cnn model inference

convolutional neural network cnn mxnet intel openvino neocpu

发现论文，激发创造

使用 IntelCaffe 进行高效 8 位低精度卷积神经网络推断

本文介绍了 IntelCaffe 的高效推断技术以及用于深度学习模型优化的技术，它是第一个支持 8 位低精度推断的 Intel 优化深度学习框架，能够在 Intel Xeon Scalable 处理器上加速卷积神经网络的模型优化过程。该模型的 8 位优化模型可通过一次标定过程从 FP32 模型自动生成，无需进行微调或重新训练，其在 ResNet-50、Inception-v3 和 SSD 上的推断吞吐量和延迟分别提高了 1.38X-2.9X 和 1.35X-3X，精度损失可忽略不计，与 IntelCaffe FP32 基线相比，这些技术还使得吞吐量和延迟分别提高了 56X-75X 和 26X-37X。这些技术已在 IntelCaffe GitHub 进行了开源，并提供了 Amazon AWS Cloud 上重现结果的文物。

May, 2018

基于 CPU 的深度学习模型：高效训练的方法论

本文提出了一种在 Intel CPU 上优化深度学习模型训练的方法和工具集 ProfileDNN 以及一个任务优化方法，旨在解决在选择适当硬件时成本和效率之间的权衡问题，并通过几个案例研究探讨了如何使用 ProfileDNN 和 Intel PyTorch 扩展来优化模型训练。

Jun, 2022

在 CPU 上加速大型语言模型的推断

利用 CPU 加速大型语言模型推理的并行化方法提高吞吐量，通过利用现代 CPU 体系结构的并行处理能力和批处理推理请求，与多个工作程序在同一设备上运行以进行更多的吞吐量改进，可以减少 LLM 的功耗约 48.9％，并提供具备生产环境的吞吐量和延迟。

Mar, 2024

机器学习辅助的卷积神经网络推断系统计算机架构设计

我们的工作通过识别最合适的 GPGPU 用于 CNN 推理系统，提出了一种加快 DSE 过程的方法。我们开发了一种快速而精确的技术来预测 CNN 推理过程中的功耗和性能，MAPE 分别为 5.03％和 5.94％。这种方法使计算机架构师能够在开发初期估计功耗和性能，减少了大量原型的必要性。这不仅节省了时间和金钱，同时也改善了上市时间。

Aug, 2023

实现边缘智能动态卷积神经网络推理的探索

本研究提出了动态流式传输模型参数和基于库的方法来实现传统 CNN 架构的可扩展和动态分布式 CNN 推断，利用部分重构技术提高了资源受限的边缘设备的性能，并在 Xilinx PYNQ-Z2 板上实现了 LeNet-5 CNN 模型，具有 92％，86％和 94％的分类准确率。

Feb, 2022

Intel nGraph：深度学习的中间表示、编译器和执行器

通过创建一个名为 Intel nGraph 的 C++ 库，支持各种深度学习框架和硬件平台，以实现深度学习性能的优化，包括 TensorFlow、MXNet 和 Intel neon 框架，以及多个硬件平台和编译器优化。

Jan, 2018

使用移动 GPU 进行设备端神经网络推断

本文介绍了如何利用手机上普遍存在的 GPU 加速器，在 Android 和 iOS 设备上实现深度神经网络的实时推断，并将其集成到开源项目 TensorFlow Lite 中。

Jul, 2019

SIMD 数据流协同优化用于 CPU 上高效神经网络推理

通过使用数据流和启发式引导分析及代码生成框架，我们致力于解决在 CPU 上部署神经网络时所面临的挑战，特别注重在保持准确性的同时最小化推断时间。我们的研究结果表明，通过保持输出在 SIMD 寄存器中的数据流，并同时最大限度地利用输入和权重重用，可以实现各种推断工作负载的最佳性能，使 8 位神经网络的速度提高 3 倍，二进制神经网络的速度提高 4.8 倍。

Oct, 2023

在嵌入式 ARM big.LITTLE 多核处理器上进行高吞吐量 CNN 推理

本文介绍了一种名为 Pipe-it 的替代框架，它采用流水线设计将卷积层分布在多个簇中，从而限制各自卷积内核的并行化，以提高 IoT Edge 智能的推理效率。使用性能预测模型利用卷积层描述符预测各允许的内核配置（类型和数量）上每个卷积层的执行时间，并利用有效的设计空间探索算法来创建平衡的管道，Pipe-it 平均提高了 39％的吞吐量。

Mar, 2019

基于模型修剪和编译器优化在移动平台上实现实时 DNN 推理

本文提出应用硬件友好的结构化模型压缩和编译器优化技术以加速在移动设备上的深度神经网络执行，实验结果表明这些优化技术可以实现多个深度神经网络应用，如风格迁移、DNN 着色和超分辨率的实时移动执行。

Apr, 2020