使用 IntelCaffe 进行高效 8 位低精度卷积神经网络推断

May, 2018

使用 IntelCaffe 进行高效 8 位低精度卷积神经网络推断

Highly Efficient 8-bit Low Precision Inference of Convolutional Neural Networks with IntelCaffe

Jiong Gong, Haihao Shen, Guoming Zhang, Xiaoli Liu, Shane Li...

TL;DR本文介绍了 IntelCaffe 的高效推断技术以及用于深度学习模型优化的技术，它是第一个支持 8 位低精度推断的 Intel 优化深度学习框架，能够在 Intel Xeon Scalable 处理器上加速卷积神经网络的模型优化过程。该模型的 8 位优化模型可通过一次标定过程从 FP32 模型自动生成，无需进行微调或重新训练，其在 ResNet-50、Inception-v3 和 SSD 上的推断吞吐量和延迟分别提高了 1.38X-2.9X 和 1.35X-3X，精度损失可忽略不计，与 IntelCaffe FP32 基线相比，这些技术还使得吞吐量和延迟分别提高了 56X-75X 和 26X-37X。这些技术已在 IntelCaffe GitHub 进行了开源，并提供了 Amazon AWS Cloud 上重现结果的文物。

Abstract

High throughput and low latency inference of deep neural networks are critical for the deployment of deep learning applications. This paper presents the efficient inference techniques of →

deep learning inference techniques low precision inference model optimization intelcaffe

发现论文，激发创造

混合专家混合精度神经网络的调优

通过添加新的数据类型到 Caffe，增加了现有商品电子设备上深度学习推断速度，在某些设备上，内存使用量可以降低到 3.29 倍，推断速度可以提高到 3.01 倍，并提出了一种混合专家模型的变化来增加图像分类中的推断速度。

Sep, 2022

优化 CPU 上 CNN 模型的推理

本研究提出了一种名为 'NeoCPU' 的综合方法，通过对模板进行优化实现卷积神经网络模型的 CPU 推理，而不是依赖第三方库来实现模型图的单独操作优化，从而通过操作级别和图级别同时优化来进一步提高性能。实验结果表明，与当前各种流行 CPU 上的最先进实现相比，NeoCPU 的卷积神经网络模型推理延迟可降低 3.45 倍。

Sep, 2018

量化卷积神经网络以用于低功耗高吞吐量推理引擎

本文提出了一种量化方案，通过在参考浮点模型上校准而不是重新训练来确定量化方案参数，从而实现了基于更高效的算术进行推理，并且在量化后的结果中，终端到终端精度可与基准模型相当。

May, 2018

CBinfer：利用帧间局部性加速卷积神经网络对视频流的推断

采用新算法利用空间 - 时间稀疏性在计算机视觉中取得了高能效，即使在嵌入式设备上不需要重新训练网络，也可在语义分割应用中达到快速且准确的实时推断

Aug, 2018

基于内存的混合低精度量化，实现微控制器上深度网络推断

本文提出了一种新颖的端到端方法，用于在微控制器上部署低误差的深度神经网络，通过混合低位宽压缩，结合 8、4 或 2 位均匀量化，以整数运算来建模推理图，旨在确定每个激活和权重张量的最小位精度，摆脱了资源受限边缘设备的内存和计算限制，通过一个基于规则的迭代过程，运用量化感知的重训练，将虚假量化图转换为整数推理模型，使用整数通道归一化 (ICN) 图层将该模型部署到只有 2MB 的 FLASH 存储器和 512kB 的 RAM 设备上，并报告了基于 STM32H7 微控制器的混合精度 MobilenetV1 家族网络的延迟 - 精度评估结果，实验结果表明，相比于之前发表的微控制器 8 位实现，Top1 精度提高了 8％，达到了 68％。

May, 2019

在嵌入式 ARM big.LITTLE 多核处理器上进行高吞吐量 CNN 推理

本文介绍了一种名为 Pipe-it 的替代框架，它采用流水线设计将卷积层分布在多个簇中，从而限制各自卷积内核的并行化，以提高 IoT Edge 智能的推理效率。使用性能预测模型利用卷积层描述符预测各允许的内核配置（类型和数量）上每个卷积层的执行时间，并利用有效的设计空间探索算法来创建平衡的管道，Pipe-it 平均提高了 39％的吞吐量。

Mar, 2019

实时大规模 ConvNets 的 0.3-2.6 TOPS/W 精度可扩展处理器

该研究实现了一种低功耗、可精确可扩展的卷积神经网络处理器，其充分利用卷积的稀疏性和动态精度可扩展性，实现了供应和能量缩放，能够在保持吞吐量的情况下最小化能量消耗，同时其实现的效率从 0.3-2.6 实际 TOPS/W，超越了同类产品达到 3.9 倍的能效。

Jun, 2016

采用超低比特量化和运行时技术加速在 Arm CPU 上的深度学习模型推理

介绍了 Deeplite Neutrino 以及 Deeplite Runtime 来优化深度学习模型，并在 Arm-based 平台上部署超低比特量化模型。使用向量化，并行化和瓦片化高效实现，这些实现与 TensorFlow Lite 比较，分类和检测模型的速度提高了 2 倍和 2.2 倍，与 ONNX Runtime 比较，分类和检测模型的速度提高了 5 倍和 3.2 倍。

Jul, 2022

深度卷积网络的量化优化：一篇白皮书

本文概述了卷积神经网络量化技术，研究发现通过对权重和激活进行逐通道和逐层量化，即使在不支持 8 位运算的情况下，将权重量化为 8 位可以将模型大小降低 4 倍，并且分类的准确率可以达到浮点型卷积神经网络的 98%。作者介绍了针对 CPU 和 DSP 的量化网络的等待时间基准测试，并观察到相比于 CPU 上的浮点运算，量化实现的速度提高了 2 倍至 3 倍。作者提出了一种通过 TensorFlow 和 TensorFlowLite 进行卷积网络量化的工具，并回顾了用于量化训练的最佳实践。作者建议，对于硬件加速和内核优化，应将逐通道量化的权重和逐层量化的激活作为首选量化方案，并提议未来处理器和硬件加速器用于优化推断时支持 4、8 和 16 位的精度。

Jun, 2018

CascadeCNN：将量化在卷积神经网络中的性能极限推至极致

CascadeCNN 是一个自动化工具流程，用于推动任何给定的 CNN 模型的量化极限，旨在进行高吞吐率推理。通过在级联中使用低 - 高精度单元以及置信度评估单元，实现对任何给定的 CNN-FPGA 配对的定制。实验证明，所提出的工具流程在相同的资源预算和准确性下，可以使 VGG-16 的性能提升高达 55％，AlexNet 的性能提升高达 48％，而无需重新训练模型或访问训练数据。

Jul, 2018