FPGA 上高吞吐量混合精度 CNN 加速器设计
卷积神经网络(CNN)的能效和内存占用取决于权重量化策略和映射,通过启用丰富的混合量化方案,我们可以找到更有效利用硬件资源的映射,从而在精度、能耗和内存要求之间取得更好的平衡。通过扩展 Timeloop 工具,提出了一种高效的多目标优化算法,实证了该方法在两种 CNN 和两种加速器上的有效性,并证明了相对于未经精心优化的 CNN 实现,可以实现高达 37% 的能量节省,而无需降低精度。
Apr, 2024
本文提出了一种针对卷积神经网络的硬件优化方案,该方案采用两种针对不同层次的特定优化法,实现不同的计算方式以提高性能,并在最大程度上减少了占用芯片的内存及对外部内存访问的需求,从而缓解了 CPU 的压力并大幅提升了处理速度。
Sep, 2020
本文概述了卷积神经网络量化技术,研究发现通过对权重和激活进行逐通道和逐层量化,即使在不支持 8 位运算的情况下,将权重量化为 8 位可以将模型大小降低 4 倍,并且分类的准确率可以达到浮点型卷积神经网络的 98%。作者介绍了针对 CPU 和 DSP 的量化网络的等待时间基准测试,并观察到相比于 CPU 上的浮点运算,量化实现的速度提高了 2 倍至 3 倍。作者提出了一种通过 TensorFlow 和 TensorFlowLite 进行卷积网络量化的工具,并回顾了用于量化训练的最佳实践。作者建议,对于硬件加速和内核优化,应将逐通道量化的权重和逐层量化的激活作为首选量化方案,并提议未来处理器和硬件加速器用于优化推断时支持 4、8 和 16 位的精度。
Jun, 2018
本文提出一种基于二次幂值的、专注于稀疏 CNN 的量化策略,并结合无损编码构建一种高压缩比、计算成本低、准确率几乎无损的压缩管线,在 ResNet-50 网络上实现 18.08x CR 的压缩效果,同时也证明更硬件有效。
Mar, 2019
CascadeCNN 是一个自动化工具流程,用于推动任何给定的 CNN 模型的量化极限,旨在进行高吞吐率推理。通过在级联中使用低 - 高精度单元以及置信度评估单元,实现对任何给定的 CNN-FPGA 配对的定制。实验证明,所提出的工具流程在相同的资源预算和准确性下,可以使 VGG-16 的性能提升高达 55%,AlexNet 的性能提升高达 48%,而无需重新训练模型或访问训练数据。
Jul, 2018
该研究探索了一种新的神经网络压缩方法,通过不同比特宽度的量化不同层并使用可微分神经架构搜索框架进行优化,成功地实现了比现有方法更高的压缩率,模型尺寸缩小 21.1 倍或计算量降低 103.9 倍
Nov, 2018
该研究提出了一种名为量化卷积神经网络的模型,旨在通过量化卷积层中的滤波器核和全连接层中的权重矩阵,实现计算效率的提升和存储内存开销的降低,相对于非量化模型,该模型在 ILSVRC-12 基准测试中达到 4~6 倍的加速和 15~20 倍的压缩,仅有 1% 左右的分类准确率损失,并且甚至可以在移动设备上在一秒内精准分类照片。
Dec, 2015
该论文研究了基于 FPGA 的深度神经网络模型压缩方法 —— 不同行采用不同的量化方案以充分利用 FPGA 中 LUT 和 DSP 的资源,提出了适用于高斯分布和均匀分布的两种量化方案,并提出了混合方案以保持或提高精度。
Dec, 2020
本文提出了三种实用方法来优化低精度深度卷积神经网络,包括渐进式量化、随机量化以及联合知识蒸馏来提高网络训练。通过实验证明,该方法在各种数据集上表现良好。
Aug, 2019