面向量化神经网络的高效内存计算硬件:最新技术、挑战与展望
本研究介绍了一种训练低精度神经网络的方法,该方法使用二进制操作代替计算,达到降低内存大小、减少电力消耗的目的。经过MNIST、CIFAR-10、SVHN、ImageNet和Penn Treebank数据集的测试,结果表明1位权重和2位激活的量化版本的AlexNet能够达到51%的准确率,训练过程中也能使用仅有的二进制操作实现损失函数的计算,并在损失部分的代码上进行了优化,使得QNN的运行速度能比未优化的GPU加速速度快七倍,并且没有影响分类准确性。
Sep, 2016
通过改变神经网络的结构和权重的位数,本文比较了硬件实现中神经网络规模和权重量化对网络性能的影响,提出了在硬件资源有限的情况下,指导网络规模和权重精度平衡的有效压缩比。
Nov, 2016
本论文介绍了一种将QNN推理操作转换为整数推理操作的流程,以及一些基于比特串处理技术的方法,以常见的按位操作有效地部署QNN。作者展示了QNN在移动CPU上的潜力,并提供了一个比特串矩阵乘法库。
Sep, 2017
本文介绍了一种基于深度强化学习的硬件感知自适应量化方法,将硬件加速器的反馈置于设计循环中以自动确定量化策略,该方法可以为不同的神经网络架构和硬件架构专门量身定制量化策略。与传统方法相比,该方法可以将延迟降低1.4-1.95倍,能量消耗降低1.9倍,并提供了不同量化策略的含义,为神经网络架构设计和硬件架构设计提供了新的思路。
Nov, 2018
本文提出了一种新颖的端到端方法,用于在微控制器上部署低误差的深度神经网络,通过混合低位宽压缩,结合8、4或2位均匀量化,以整数运算来建模推理图,旨在确定每个激活和权重张量的最小位精度,摆脱了资源受限边缘设备的内存和计算限制,通过一个基于规则的迭代过程,运用量化感知的重训练,将虚假量化图转换为整数推理模型,使用整数通道归一化(ICN)图层将该模型部署到只有2MB的FLASH存储器和512kB的RAM设备上,并报告了基于 STM32H7 微控制器的混合精度 MobilenetV1 家族网络的延迟-精度评估结果,实验结果表明,相比于之前发表的微控制器8位实现,Top1 精度提高了8%,达到了68%。
May, 2019
为了应用DNN在移动设备中,我们提出了压缩QNN的新编码方案,使用{-1, +1}将其分解成多个二进制网络,使用位运算(xnor和bitcount)实现模型压缩、计算加速和资源节约。我们的方法非常适合在FPGA和ASIC上使用,验证了在大规模图像分类(例如ImageNet)和物体检测任务中具有与全精度相近的性能。
May, 2019
本文提出了一种基于深度强化学习的硬件感知自动量化框架 (HAQ),旨在为不同的神经网络体系结构和硬件体系结构确定最佳的量化策略,以提高计算效率并在保持准确性的前提下减少延迟和能耗。 在硬件仿真器的帮助下,该框架的有效性已得到证明。
Aug, 2020
本文提出了一种新型IMC加速器FAT,其中使用Sparse Addition Control Unit来利用TWNs的稀疏性,使用快速加法方案来避免传输和存储时间开销,并使用Combined-Stationary数据映射来提高内存列中的并行性,模拟结果表明,FAT相比于现有的IMC加速器ParaPIM可以实现2.00X的加速,1.22X的功率效率和1.22X的面积效率,对于80%平均稀疏度的网络,FAT可以实现10.02X的加速和12.19X的能量效率。
Jan, 2022
我们的研究旨在减少深度学习模型在边缘计算设备上的能耗和大小,通过使用机器学习技术在深度学习体系结构中的卷积操作。我们提出了系统化质量可扩展设计方法,包括较高抽象级别的质量可扩展量化和较低抽象级别的质量可扩展乘法器。这种方法通过参数压缩和质量可扩展乘法器的设计,可以减小DNN模型的大小并减少能耗,而几乎不需要微调就能保持接近原始权重网络的准确性。在LeNet和ConvNets上的实验证明,该方法在保持准确性接近最先进的同时,实现了多达6%的零元素的增加和多达82.4919%的内存节省。
Jul, 2024
本研究针对混合精度神经网络在运行时缺乏灵活支持的问题,提出了一种名为BF-IMNA的比特流动内存计算加速器,能够在不进行硬件重新配置的情况下支持静态和动态混合精度。实验结果表明,在不同的技术、混合精度配置和供电电压下,BF-IMNA相比于当前的主流加速器在能效和吞吐量上有显著提升,能效提高20%和吞吐量提高2%。
Nov, 2024