可训练的固定点量化用于在 FPGA 上加速深度学习
本文提出一种新的深度神经网络固定点量化框架 (FxP-QNet),该框架可以在保证网络精度的前提下,根据网络对低精度的需求动态地设计不同精度的量化级别。在基准测试 (ImageNet) 中,模型的内存需求得到了 7.16 倍 - 10.36 倍的压缩,同时准确率只有不到 2% 的损失。
Mar, 2022
F8Net 是一种完全由固定点 8 位乘法构成的量化框架,可以降低神经网络量化模型与完全精度模型之间的性能差距,并显著降低内存占用和能源消耗。
Feb, 2022
在这项研究中,我们通过对模型权重和激活函数使用 3 至 8 位的浮点数和整数量化方案,比较了浮点数量化和整数量化的适用性,验证了低精度 minifloats 在一系列精度 - 准确度权衡中相对于整数量化的有效性,并通过 FPGA 型号评估结果,表明整数量化通常是优选选择。
Nov, 2023
该论文研究了基于 FPGA 的深度神经网络模型压缩方法 —— 不同行采用不同的量化方案以充分利用 FPGA 中 LUT 和 DSP 的资源,提出了适用于高斯分布和均匀分布的两种量化方案,并提出了混合方案以保持或提高精度。
Dec, 2020
本研究旨在提出一种新的 FXP 卷积关键词检测模型的训练方法,结合了两种量化感知训练技术 - 压缩权重分布和模型参数的绝对余弦正则化,同时还提出了针对瞬变变量的 QAT 技术,通过实验结果表明我们可以在不降低准确性的情况下将模型精度降低至 4 位,并且在推断阶段 FXP-QAT 消除了 Q 格式规范化并可以使用低比特累加器,同时利用最大内核 SIMD 减少用户感知延迟,降低了 68% 的执行时间。
Mar, 2023
量化方法在深度神经网络的高效部署中变得至关重要,深度神经网络经常需要量化以便在计算中使用固定点操作代替浮点操作。本文探讨了一种基于梯度的后训练量化方法(GPTQ),证明了该方法在选择权重、特征增强、校准集等方面具有一定鲁棒性,并提出了设计更高效、可扩展的 GPTQ 方法的准则,最后还提出了一种基于重要性的混合精度技术,这些准则和技术共同促进了已有的 GPTQ 方法和网络的性能改进,为设计可扩展且有效的量化方法开辟了新的可能。
Aug, 2023
本文研究了深度神经网络在 FPGA 上的优化设计,提出使用多种精度量化来减少计算和数据传输成本,并成功实现了针对混合精度 CNN 的高效硬件加速器,能够达到高精度和高性能的权衡。
Aug, 2022
本研究应用线性量化于基于 FPGA 的软传感器以实现精确的流体流量估计,通过克服传统定点量化的局限性,显著提高神经网络模型的精确度。通过针对硬件的优化,我们的方法在平均平方误差上实现 10.10% 的降低,并在推理速度上有 9.39% 的显著改进。在多个数据集上验证后,我们的发现表明优化的基于 FPGA 的量化模型能够提供高效、准确的实时推理结果,为普遍自主系统中基于云处理的可行替代方案。
Mar, 2024
通过精度分配方法,实现神经网络中所有参数的最小化,从而实现固定点训练。针对 CIFAR-10,CIFAR-100 和 SVHN 数据集,对四个网络进行实验验证,证实此方法具有接近最优的精度分配,可以与其他固定点神经网络设计相比较。(The precision assignment methodology reduces the complexity of fixed-point training for neural networks, and its optimality is validated empirically for various datasets and network designs)
Dec, 2018