量子化神经网络的简化部署
本研究介绍了一种训练低精度神经网络的方法,该方法使用二进制操作代替计算,达到降低内存大小、减少电力消耗的目的。经过MNIST、CIFAR-10、SVHN、ImageNet和Penn Treebank数据集的测试,结果表明1位权重和2位激活的量化版本的AlexNet能够达到51%的准确率,训练过程中也能使用仅有的二进制操作实现损失函数的计算,并在损失部分的代码上进行了优化,使得QNN的运行速度能比未优化的GPU加速速度快七倍,并且没有影响分类准确性。
Sep, 2016
本篇论文研究了深度神经网络的低精度模型的训练方法,探讨了在小型设备上训练深度神经网络的难点,提出了一种理论视角下的量化训练方法,并探索了非凸问题下的算法行为模型。
Jun, 2017
本文提出了一种量化方案,通过整数运算进行推断,以提高在移动设备上的效率,并设计了一种训练程序来维护量化后的模型精度。该方案在MobileNets模型中展现了显著的改进,在ImageNet分类和COCO检测等任务上获得了良好的结果。
Dec, 2017
本文介绍了一种基于深度强化学习的硬件感知自适应量化方法,将硬件加速器的反馈置于设计循环中以自动确定量化策略,该方法可以为不同的神经网络架构和硬件架构专门量身定制量化策略。与传统方法相比,该方法可以将延迟降低1.4-1.95倍,能量消耗降低1.9倍,并提供了不同量化策略的含义,为神经网络架构设计和硬件架构设计提供了新的思路。
Nov, 2018
本文提出了一种新颖的端到端方法,用于在微控制器上部署低误差的深度神经网络,通过混合低位宽压缩,结合8、4或2位均匀量化,以整数运算来建模推理图,旨在确定每个激活和权重张量的最小位精度,摆脱了资源受限边缘设备的内存和计算限制,通过一个基于规则的迭代过程,运用量化感知的重训练,将虚假量化图转换为整数推理模型,使用整数通道归一化(ICN)图层将该模型部署到只有2MB的FLASH存储器和512kB的RAM设备上,并报告了基于 STM32H7 微控制器的混合精度 MobilenetV1 家族网络的延迟-精度评估结果,实验结果表明,相比于之前发表的微控制器8位实现,Top1 精度提高了8%,达到了68%。
May, 2019
为了应用DNN在移动设备中,我们提出了压缩QNN的新编码方案,使用{-1, +1}将其分解成多个二进制网络,使用位运算(xnor和bitcount)实现模型压缩、计算加速和资源节约。我们的方法非常适合在FPGA和ASIC上使用,验证了在大规模图像分类(例如ImageNet)和物体检测任务中具有与全精度相近的性能。
May, 2019
本文探讨了移动设备上深度神经网络低精度表示的问题,提出了一个简单的方法通过在通道的参数中添加一个常数来解决量化引起的移位问题,从而实现了对MobileNet架构的优化。
Jun, 2019
本文介绍了量化技术如何减小深度神经网络的规模,提高推理延迟和吞吐量,并评估它们在各种应用领域的不同神经网络模型上的选择,包括视觉、语音和语言等方面,并重点介绍适用于高吞吐量整数数学流水线处理器加速的量化技术。同时,还提供了一种8位量化工作流,能够在所有研究的网络上保持1%的浮点基线精度,包括更难量化的模型,如MobileNets和BERT-large。
Apr, 2020
本文提出了一种基于深度强化学习的硬件感知自动量化框架 (HAQ),旨在为不同的神经网络体系结构和硬件体系结构确定最佳的量化策略,以提高计算效率并在保持准确性的前提下减少延迟和能耗。 在硬件仿真器的帮助下,该框架的有效性已得到证明。
Aug, 2020
本文介绍了一个新的深度神经网络量化和部署的框架,MicroAI,并研究了在低功耗32位微控制器上应用该框架的优化方法和效果。通过对三个不同数据集(UCI-HAR、Spoken MNIST和GTSRB)的评估,与两种已有的嵌入式推理引擎(TensorFlow Lite for Microcontrollers和STM32CubeAI)的比较和在ARM Cortex-M4F微控制器(Ambiq Apollo3和STM32L452RE)上的验证,证明了MicroAI具有更好的内存和功耗效率。
May, 2021