FLightNNs: 轻量化量化深度神经网络 用于快速和准确推理
本研究介绍了一种训练低精度神经网络的方法,该方法使用二进制操作代替计算,达到降低内存大小、减少电力消耗的目的。经过MNIST、CIFAR-10、SVHN、ImageNet和Penn Treebank数据集的测试,结果表明1位权重和2位激活的量化版本的AlexNet能够达到51%的准确率,训练过程中也能使用仅有的二进制操作实现损失函数的计算,并在损失部分的代码上进行了优化,使得QNN的运行速度能比未优化的GPU加速速度快七倍,并且没有影响分类准确性。
Sep, 2016
本文综述了目前深度神经网络的应用及其在计算机视觉、语音识别、机器人等AI任务中的高精度表现,同时也阐述了深度神经网络大规模部署所面临的高算力成本和能效问题,并提出了硬件设计、算法优化等多种解决方案以提高能效和算力,最后对比了各种深度神经网络的设计指标并展示了很多发展资源。
Mar, 2017
介绍了ShiftCNN,这是一种基于2的n次幂权重表示的广义低精度卷积神经网络(CNN)推理架构,可应用于任何具有相对较小权重代码本的CNN架构,并且减少至少两个数量级的乘积运算,可实现的加速器有FPGAs或ASICs。使用提议的量化算法,ImageNet的广泛评估表明可以将最先进的CNN转换为ShiftCNN并且不到1%的准确率下降。
Jun, 2017
本文概述了卷积神经网络量化技术,研究发现通过对权重和激活进行逐通道和逐层量化,即使在不支持8位运算的情况下,将权重量化为8位可以将模型大小降低4倍,并且分类的准确率可以达到浮点型卷积神经网络的98%。作者介绍了针对CPU和DSP的量化网络的等待时间基准测试,并观察到相比于CPU上的浮点运算,量化实现的速度提高了2倍至3倍。作者提出了一种通过TensorFlow和TensorFlowLite进行卷积网络量化的工具,并回顾了用于量化训练的最佳实践。作者建议,对于硬件加速和内核优化,应将逐通道量化的权重和逐层量化的激活作为首选量化方案,并提议未来处理器和硬件加速器用于优化推断时支持4、8和16位的精度。
Jun, 2018
通过设计神经网络拓扑结构来直接映射高效FPGA实现的一种新方法。其中,硬件成本与神经元扇入呈指数级增长,通过使用稀疏和低比特激励量化来限制神经元扇入及减小逻辑深度和低LUT成本,可以实现具有高速低延时和高吞吐量的电路。应用于高能物理和网络入侵检测等任务,具有竞争性的准确性,每秒推断量可达数亿。
Apr, 2020
ShiftAddNet是一种硬件启发式的深度神经网络,通过只使用位移和加权层替代传统的乘法运算来实现深度网络的显式参数化,从而获得与标准深度神经网络相当的表达能力和更加灵活的精度和效率之间的权衡,并且可以与量化和修剪等技术结合,实现在训练和推理中更加节能高效的性能。
Oct, 2020
该论文研究了基于FPGA的深度神经网络模型压缩方法——不同行采用不同的量化方案以充分利用FPGA中LUT和DSP的资源,提出了适用于高斯分布和均匀分布的两种量化方案,并提出了混合方案以保持或提高精度。
Dec, 2020
本文提出一种新的深度神经网络固定点量化框架(FxP-QNet),该框架可以在保证网络精度的前提下,根据网络对低精度的需求动态地设计不同精度的量化级别。在基准测试(ImageNet)中,模型的内存需求得到了7.16倍-10.36倍的压缩,同时准确率只有不到2%的损失。
Mar, 2022
这篇研究论文介绍了一种量化感知训练算法,该算法通过权重归一化约束参数,使用累加器位宽界限来避免数值溢出,在保持模型精度的同时,可以减少累加器的精度,并提高量化神经网络中的稀疏性和可压缩性,从而提高 FPGA 设计效率。
Jan, 2023
在过去的十年中,深度学习在自然语言处理、计算机视觉和生物医学信号处理等各个人工智能领域中占据主导地位。虽然模型的准确性有了显著提高,但将这些模型部署在移动手机和微控制器等轻量设备上受到资源限制的制约。本调查报告针对这些设备提供全面的设计指导,详细介绍了轻量模型的细致设计、模型压缩方法和硬件加速策略。本工作的主要目标是探索在不影响模型准确性的情况下克服硬件限制的方法和概念。此外,我们还探讨了未来轻量深度学习的两个值得关注的方向:TinyML和大型语言模型的部署技术。尽管这些方向无疑具有潜力,但它们也带来了重大挑战,鼓励研究未开拓的领域。
Apr, 2024