针对 MobileNet 的 Subtensor 量化
本文分析了 MobileNetV1 量化造成的精度损失问题,并提出了一种友好于量化的可分离卷积架构,经 ImageNet2012 数据集测试,我们改进后的 MobileNetV1 模型能够以 8 位推理精度达到 68.03%,几乎与其浮点精度模型无异。
Mar, 2018
本文介绍了一种将 DNN 网络转化为限定精度以充分利用能源高效加速器的简单方法,通过识别通道级分布以减少量化引起的精度损失和最小化所需的图像采样量,在 ImageNet 分类基准测试上通过了 11 个网络的评估,并且不需要微调即可将网络量化为 8 位整数精度。
Oct, 2018
本文提出了一种针对深度模型量化的优化框架和量化算法,首次理论分析单个图层的参数量化误差与模型精度之间的关系,达到了比以前的优化方法更高的压缩率和相同模型精度下更高的压缩率。
Dec, 2017
本文概述了卷积神经网络量化技术,研究发现通过对权重和激活进行逐通道和逐层量化,即使在不支持 8 位运算的情况下,将权重量化为 8 位可以将模型大小降低 4 倍,并且分类的准确率可以达到浮点型卷积神经网络的 98%。作者介绍了针对 CPU 和 DSP 的量化网络的等待时间基准测试,并观察到相比于 CPU 上的浮点运算,量化实现的速度提高了 2 倍至 3 倍。作者提出了一种通过 TensorFlow 和 TensorFlowLite 进行卷积网络量化的工具,并回顾了用于量化训练的最佳实践。作者建议,对于硬件加速和内核优化,应将逐通道量化的权重和逐层量化的激活作为首选量化方案,并提议未来处理器和硬件加速器用于优化推断时支持 4、8 和 16 位的精度。
Jun, 2018
本文介绍了量化技术如何减小深度神经网络的规模,提高推理延迟和吞吐量,并评估它们在各种应用领域的不同神经网络模型上的选择,包括视觉、语音和语言等方面,并重点介绍适用于高吞吐量整数数学流水线处理器加速的量化技术。同时,还提供了一种 8 位量化工作流,能够在所有研究的网络上保持 1% 的浮点基线精度,包括更难量化的模型,如 MobileNets 和 BERT-large。
Apr, 2020
本文提出了一种量化方案,通过整数运算进行推断,以提高在移动设备上的效率,并设计了一种训练程序来维护量化后的模型精度。该方案在 MobileNets 模型中展现了显著的改进,在 ImageNet 分类和 COCO 检测等任务上获得了良好的结果。
Dec, 2017
通过分析 MobileNets 在量化后的分布动态中的不匹配性、动态范围波动、以及 DWSCNN 较传统 CNN 更易受到量化累积误差等现象,揭示了 DWSCNN 量化表现不佳的根本原因。这些认知或许能帮助未来发展出纠正此类问题,提高移动上的后训练量化表现的策略。
Apr, 2021
该论文提出了一种混合精度搜索方法,该方法通过硬件无关的可微分搜索算法和硬件感知优化算法来寻找特定硬件目标上的优化后的混合精度配置,以减少模型大小、延迟并保持统计准确性,该方法在 MobileNetV1 和 MobileNetV2 上进行了评估,在具有不同硬件特性的多核 RISC-V 微控制器平台上展示了与 8 位模型相比高达 28.6% 的端到端延迟降低,在没有对子字节算术支持的系统上也能实现加速,同时在代表延迟的减少二进制运算次数上,我们的方法也表现出优越性。
Jul, 2023
本文提出了一种新颖的端到端方法,用于在微控制器上部署低误差的深度神经网络,通过混合低位宽压缩,结合 8、4 或 2 位均匀量化,以整数运算来建模推理图,旨在确定每个激活和权重张量的最小位精度,摆脱了资源受限边缘设备的内存和计算限制,通过一个基于规则的迭代过程,运用量化感知的重训练,将虚假量化图转换为整数推理模型,使用整数通道归一化 (ICN) 图层将该模型部署到只有 2MB 的 FLASH 存储器和 512kB 的 RAM 设备上,并报告了基于 STM32H7 微控制器的混合精度 MobilenetV1 家族网络的延迟 - 精度评估结果,实验结果表明,相比于之前发表的微控制器 8 位实现,Top1 精度提高了 8%,达到了 68%。
May, 2019
本文提出一种不同的量化方法,使用不同的参数化方法来训练深度神经网络,从而达到更高效深度神经网络推理的效果。通过多组实验验证,使用该方法训练得到的量化参数可以达到最佳效果。
May, 2019