采用超低比特量化和运行时技术加速在 Arm CPU 上的深度学习模型推理

Jul, 2022

采用超低比特量化和运行时技术加速在 Arm CPU 上的深度学习模型推理

Accelerating Deep Learning Model Inference on Arm CPUs with Ultra-Low Bit Quantization and Runtime

Saad Ashfaq, MohammadHossein AskariHemmat, Sudhakar Sah, Ehsan Saboori, Olivier Mastropietro...

TL;DR介绍了 Deeplite Neutrino 以及 Deeplite Runtime 来优化深度学习模型，并在 Arm-based 平台上部署超低比特量化模型。使用向量化，并行化和瓦片化高效实现，这些实现与 TensorFlow Lite 比较，分类和检测模型的速度提高了 2 倍和 2.2 倍，与 ONNX Runtime 比较，分类和检测模型的速度提高了 5 倍和 3.2 倍。

Abstract

deep learning has been one of the most disruptive technological advancements in recent times. The high performance of deep learning models comes at the expense of high computational, storage and power requirement

deep learning optimization compression quantization arm-based devices

发现论文，激发创造

DeepliteRT：边缘计算机视觉

该研究论文通过在 ARM 设备上实现高度优化的超低位卷积运算符，结合 Deeplite Runtime 编译，调优和推断框架，将深度学习模型以超低位表示轻松部署在物美价廉的硬件上，实现边缘设备的深度学习应用加速。

Sep, 2023

Deeplite Neutrino: 用于受限深度学习模型优化的端到端框架

该研究介绍了一种基于深度学习的黑盒优化框架，Deeplite Neutrino，旨在优化深度学习模型的大小，从而在边缘设备上实现设备上智能应用。该框架易于将其纳入现有生产流程并支持 PyTorch 和 Tensorflow 库。同时，该框架的性能经过了多个基准数据集和流行的深度学习模型的优化，且在多个客户端获得了成果和证明。

Jan, 2021

用于粒子探测器边缘低延迟推断的深度神经网络自动异构量化

本文介绍了一种利用分层、分参数类型的自动量化过程来设计深度神经网络模型的方法，旨在使模型能够在芯片上进行高精度、纳秒级推理和完全自动化部署。这对于 CERN 大型强子对撞机中的事件选择过程至关重要，其中资源严格限制，需要一种纳秒级的推理和降低 50 倍的资源消耗。

Jun, 2020

量子化神经网络的简化部署

本论文介绍了一种将 QNN 推理操作转换为整数推理操作的流程，以及一些基于比特串处理技术的方法，以常见的按位操作有效地部署 QNN。作者展示了 QNN 在移动 CPU 上的潜力，并提供了一个比特串矩阵乘法库。

Sep, 2017

移动设备上高性能超低精度卷积

通过对 ARMv7 设备上现代深度学习工作负载所需的核心基本操作进行开源实现和全面分析，我们展示了与现有市场上的 float32 和 int8 基准相比，使用大于 4 位精度的最先进的超低精度技术可获得 4 倍至 20 倍的加速度。

Dec, 2017

深度神经网络快速部署的量化技术

本文介绍了一种将 DNN 网络转化为限定精度以充分利用能源高效加速器的简单方法，通过识别通道级分布以减少量化引起的精度损失和最小化所需的图像采样量，在 ImageNet 分类基准测试上通过了 11 个网络的评估，并且不需要微调即可将网络量化为 8 位整数精度。

Oct, 2018

混合专家混合精度神经网络的调优

通过添加新的数据类型到 Caffe，增加了现有商品电子设备上深度学习推断速度，在某些设备上，内存使用量可以降低到 3.29 倍，推断速度可以提高到 3.01 倍，并提出了一种混合专家模型的变化来增加图像分类中的推断速度。

Sep, 2022

一种具有极限边缘智能设备学习能力的精确可扩展 RISC-V DNN 处理器

提出了一种支持多种精度的定点深度神经网络推断和增强设备上学习能力的精度可伸缩的 RISC-V DNN 处理器，通过改进硬件资源利用率，显著提高推断吞吐量和能效，并实现 16.5 倍更高的设备上学习的浮点吞吐量。

Sep, 2023

硬件感知的 DNN 压缩：通过多样化剪枝和混合精度量化

通过联合采用修剪和量化，利用强化学习探索与低能耗相关的设计空间及其精度损失，我们提出了一种自动压缩深度神经网络的硬件感知框架，能够在嵌入式深度神经网络加速器上实现能耗最小化。实验结果表明，相比现有方法，我们的框架平均能耗降低 39%，平均精度损失为 1.7%。

Dec, 2023

量化卷积神经网络以用于低功耗高吞吐量推理引擎

本文提出了一种量化方案，通过在参考浮点模型上校准而不是重新训练来确定量化方案参数，从而实现了基于更高效的算术进行推理，并且在量化后的结果中，终端到终端精度可与基准模型相当。

May, 2018