DietCNN: 量化卷积神经网络的无乘法推理
该研究提出了一种名为量化卷积神经网络的模型,旨在通过量化卷积层中的滤波器核和全连接层中的权重矩阵,实现计算效率的提升和存储内存开销的降低,相对于非量化模型,该模型在 ILSVRC-12 基准测试中达到 4~6 倍的加速和 15~20 倍的压缩,仅有 1% 左右的分类准确率损失,并且甚至可以在移动设备上在一秒内精准分类照片。
Dec, 2015
本文提出了一种自适应分层比例缩放的位编码量化(ALS-POTQ)方法和无乘积 MAC 的方法(MF-MAC),可以消除线性层中所有 FP32 乘法和重量偏差校正和参数化比率裁剪技术来提高稳定性和提高准确性,从而获得比现有方法更高的能源效率和准确性。
Feb, 2023
本文提出了一种量化方案,通过在参考浮点模型上校准而不是重新训练来确定量化方案参数,从而实现了基于更高效的算术进行推理,并且在量化后的结果中,终端到终端精度可与基准模型相当。
May, 2018
本文提出了一种量化方案,通过整数运算进行推断,以提高在移动设备上的效率,并设计了一种训练程序来维护量化后的模型精度。该方案在 MobileNets 模型中展现了显著的改进,在 ImageNet 分类和 COCO 检测等任务上获得了良好的结果。
Dec, 2017
介绍了 ShiftCNN,这是一种基于 2 的 n 次幂权重表示的广义低精度卷积神经网络(CNN)推理架构,可应用于任何具有相对较小权重代码本的 CNN 架构,并且减少至少两个数量级的乘积运算,可实现的加速器有 FPGAs 或 ASICs。使用提议的量化算法,ImageNet 的广泛评估表明可以将最先进的 CNN 转换为 ShiftCNN 并且不到 1% 的准确率下降。
Jun, 2017
该研究提出了一种利用减法器提高 CNN 推理加速器性能的新方法,通过排序、分组和舍入权重来创建组合,从而可以在推理期间将一个乘法和加法运算替换为一个减法运算,从而降低功耗和面积,并通过增加或减少减法器的使用来控制性能增益和准确性损失的权衡。利用 MNIST 数据集和 LeNet-5,采用舍入大小为 0.05 的设计可以实现 32.03%的功耗节省和 24.59%的面积减少,仅以 0.1%的准确性损失为代价。
Oct, 2023
本文提出了一种新颖的端到端方法,用于在微控制器上部署低误差的深度神经网络,通过混合低位宽压缩,结合 8、4 或 2 位均匀量化,以整数运算来建模推理图,旨在确定每个激活和权重张量的最小位精度,摆脱了资源受限边缘设备的内存和计算限制,通过一个基于规则的迭代过程,运用量化感知的重训练,将虚假量化图转换为整数推理模型,使用整数通道归一化 (ICN) 图层将该模型部署到只有 2MB 的 FLASH 存储器和 512kB 的 RAM 设备上,并报告了基于 STM32H7 微控制器的混合精度 MobilenetV1 家族网络的延迟 - 精度评估结果,实验结果表明,相比于之前发表的微控制器 8 位实现,Top1 精度提高了 8%,达到了 68%。
May, 2019
本文研究了深度神经网络在 FPGA 上的优化设计,提出使用多种精度量化来减少计算和数据传输成本,并成功实现了针对混合精度 CNN 的高效硬件加速器,能够达到高精度和高性能的权衡。
Aug, 2022
研究二值化训练和量化方法在神经网络训练中的应用,通过在 MNIST、CIFAR10、SVHN 三个数据集上的实验证明,这种方法不仅不会降低分类性能,反而可以实现比标准随机梯度下降训练更好的性能
Oct, 2015
使用加法核、低比特量化算法以及特定和通用硬件加速器设计一种高效的、性能更好的卷积神经网络(AdderNet),可以消耗更少的资源,并且比传统的卷积神经网络、基于忆阻器网络、XNOR-Net 和基于移位核的网络有更高的性能和能效,可以用于未来的高性能和能效的人工智能应用中。
Jan, 2021