AQD: 实现精确量化目标检测

CVPRJul, 2020

AQD: Towards Accurate Quantized Object Detection

Peng Chen, Jing Liu, Bohan Zhuang, Mingkui Tan, Chunhua Shen

TL;DR本文提出了一种名为 AQD 的准确量化目标检测解决方案，采用包括卷积层、归一化层和跳跃连接在内的所有层的定点运算，在极低位方案下实现与全精度方案相媲美甚至更好的性能表现。

Abstract

network quantization allows inference to be conducted using low-precision arithmetic for improved inference efficiency of deep neural networks on edge devices. However, designing aggressively low-bit (e.g., 2-bit) quantization schemes on complex tasks, such as →

network quantization low-precision arithmetic object detection fixed-point operations integer-only arithmetic

发现论文，激发创造

神经网络的量化和训练，用于高效的整数运算推理

本文提出了一种量化方案，通过整数运算进行推断，以提高在移动设备上的效率，并设计了一种训练程序来维护量化后的模型精度。该方案在 MobileNets 模型中展现了显著的改进，在 ImageNet 分类和 COCO 检测等任务上获得了良好的结果。

Dec, 2017

网络量化的特征量化蒸馏

神经网络量化是通过使用低比特近似来加速和剪裁全精度神经网络模型的过程。本文提出了一种新颖且高效的量化感知训练方法，即量化特征蒸馏（QFD），通过首先训练一个量化（或二值化）的教师表示，然后使用知识蒸馏（KD）来量化网络。定量结果表明，QFD 比之前的量化方法更加灵活和有效（即量化友好），在图像分类和目标检测任务上明显优于现有方法，同时又更为简单。此外，QFD 对 MS-COCO detection 和 segmentation 中的 ViT 和 Swin-Transformer 进行了量化验证，从而验证了其在实际部署中的潜力。据我们所知，这是第一次将视觉变换器量化应用于目标检测和图像分割任务。

Jul, 2023

低功耗物体检测的系统级解决方案

本文提出了一种面向异构嵌入式设备的高效物体检测系统解决方案，其中包括量化网络和专门的加速器，并采用分组数据流策略将计算密集型的卷积操作映射到加速器中以提高效率。研究结果显示，在 512x512 输入大小的实际监控视频中，该系统的推理速度可以达到 18 FPS，功耗仅为 6.9W，并在 PASCAL VOC 2012 数据集上实现了 66.4 的 mAP。

Sep, 2019

深度神经网络快速部署的量化技术

本文介绍了一种将 DNN 网络转化为限定精度以充分利用能源高效加速器的简单方法，通过识别通道级分布以减少量化引起的精度损失和最小化所需的图像采样量，在 ImageNet 分类基准测试上通过了 11 个网络的评估，并且不需要微调即可将网络量化为 8 位整数精度。

Oct, 2018

Q-YOLO：实时目标检测的高效推理

本研究描述了一种低位量化方法来构建一个高效的单级检测器，称为 Q-YOLO，有利于在资源受限的边缘设备上部署目标检测模型，从而实现减少计算和内存开销的实时检测。

Jul, 2023

Q-DETR: 一种高效的低位量化检测 Transformer

本文针对量化后检测转换器（Q-DETR）信息失真问题提出分布矫正蒸馏方法（DRD），该方法可优化查询分布使熵最大化，在上层引入前景感知查询匹配策略最小化条件熵。实验表明，该方法在 COCO 数据集上，4-bit Q-DETR 可加速与 ResNet-50 骨干网一起使用的 DETR，速度提高 6.6 倍，AP 值达到 39.4％，性能仅存在 2.6％的差距。

Apr, 2023

自动驾驶应用中低复杂性目标检测的快速量子卷积神经网络

通过采用快速量子卷积，我们提出了基于量子计算的物体检测方法 (QCOD)，可以在自主驾驶中实现高速物体检测，并通过 KITTI 自主驾驶物体检测数据集进行了广泛的实验证实。

Dec, 2023

用于粒子探测器边缘低延迟推断的深度神经网络自动异构量化

本文介绍了一种利用分层、分参数类型的自动量化过程来设计深度神经网络模型的方法，旨在使模型能够在芯片上进行高精度、纳秒级推理和完全自动化部署。这对于 CERN 大型强子对撞机中的事件选择过程至关重要，其中资源严格限制，需要一种纳秒级的推理和降低 50 倍的资源消耗。

Jun, 2020

REQ-YOLO: 面向 FPGA 目标检测的资源感知，高效量化框架

本文提出了 REQ-YOLO，一种资源感知的系统化权重量化框架，以达到实时、高效实现对象检测的目的。采用块循环矩阵方法和交替方向乘子法，同时提供详细的硬件实现和设计优化，并呈现实验结果证明该框架可以显著压缩 YOLO 模型，同时引入极小的精度降低。

Sep, 2019

深度平衡物体检测

通过设计深度平衡解码器，我们提出了一种新的基于查询的目标检测器（DEQDet），能够通过一系列解码器层逐步完善查询向量，直接预测物体位置和类别。通过不精确梯度反向传播（RAG）和改进的深度监督方案（RAP），我们的 DEQDet 相较于基准模型（AdaMixer）收敛更快，内存占用更少，并取得了更好的性能表现。在 MS COCO 基准测试下，我们的 DEQDet 使用 ResNet50 骨干网络和 300 个查询达到了 49.5 mAP 和 33.0 AP$_s$，训练方案为 2 倍（24 epochs）。

Aug, 2023