自动流程实现压缩卷积神经网络,以实现 FPGA 上的高效边缘计算
本文介绍FINN,一种用于构建快速、灵活的FPGA加速器的框架,该框架使用灵活的异构流式架构,并利用一组优化,将二值化神经网络映射到硬件上,从而实现完全连接、卷积和池化层,同时满足用户提供的吞吐量要求。在低于25W的总系统功率下,该平台在MNIST数据集上表现出高达1230万次图像分类每秒,0.31微秒的延迟和95.8%的准确率,在CIFAR-10和SVHN数据集上表现出21906次和283微秒的延迟、80.1%和94.9%的准确率,这是目前这些基准测试中报道的最快的分类率。
Dec, 2016
通过在卷积神经网络内使用奇异值分解(SVD)来减少计算和存储复杂性的BCNNw / SF被提出,并且实现了对CIFAR-10数据集的FPGA硬件加速器,BCNNw / SF加速器相对于仅有BCNN可以节省17%的内存,并减少31.3%的执行时间,仅牺牲了轻微的准确性。
Jul, 2017
本文综述了现有的CNN-to-FPGA工具流,包括应用支持、架构选择、设计空间探索方法和性能等关键特性的比较研究,提出了最新CNN算法研究引入的主要挑战和目标,并提出了一种统一的评估方法,旨在全面、完整和深入地评估CNN-to-FPGA工具流。
Mar, 2018
该论文提出了一种自动化设计流程f-CNN$^{ ext{x}}$,用于在FPGA上映射多个CNN,包括一个新的多CNN硬件架构和自动化设计空间探索方法,以考虑每个模型的性能要求来分配计算资源和生成可合成加速器。此外,f-CNN$^{ ext{x}}$采用一种新的调度算法,可以缓解CNN之间的内存带宽争用限制,并维持架构的高利用率。实验评估表明,f-CNN$^{ ext{x}}$的设计比不考虑争用的FPGA映射效果提高了多达50%,并为多CNN系统提供了高达6.8倍的性能功耗比。
May, 2018
本文提出了REQ-YOLO,一种资源感知的系统化权重量化框架,以达到实时、高效实现对象检测的目的。采用块循环矩阵方法和交替方向乘子法,同时提供详细的硬件实现和设计优化,并呈现实验结果证明该框架可以显著压缩YOLO模型,同时引入极小的精度降低。
Sep, 2019
本文提出了一种针对卷积神经网络的硬件优化方案,该方案采用两种针对不同层次的特定优化法,实现不同的计算方式以提高性能,并在最大程度上减少了占用芯片的内存及对外部内存访问的需求,从而缓解了CPU的压力并大幅提升了处理速度。
Sep, 2020
本文研究了在FPGA-based CNNs中采用一种称为on-the-fly的方法来预处理卷积核的设计,提出了解决方案并开发了一个名为unzipFPGA的框架,通过量化评估得出结论:在容约束带宽和优化现状和pruned CNN的引擎下,unzipFPGA的平均加速比为2.14倍,性能密度高达现有技术的3.69倍。
Mar, 2021
本研究提出了动态流式传输模型参数和基于库的方法来实现传统CNN架构的可扩展和动态分布式CNN推断,利用部分重构技术提高了资源受限的边缘设备的性能,并在Xilinx PYNQ-Z2板上实现了LeNet-5 CNN模型,具有92%,86%和94%的分类准确率。
Feb, 2022
提出了 HiKonv,一种针对特定底层处理单元和低位宽量化数据输入最大化卷积吞吐量的统一解决方案,使用全位宽乘积器建立理论框架和性能模型,可在 CPU 和 FPGA 上实现卓越表现。
Jul, 2022
本文介绍了一种名为unzipFPGA的CNN推断系统,它通过引入权重生成模块实现了芯片上的实时权重生成,为小容量内存限制的层提供了更好的支持;此外,还介绍了一种自动化硬件感知的方法,将权重生成机制与目标CNN设备进行搭配,从而实现了更好的准确性和性能平衡;最后,还引入了一种输入选择性处理单元(PE)设计,平衡了子优化映射层的负载。该提议的框架在相同功耗约束下,与高度优化的GPU设计相比,实现了平均2.57倍的性能效率提升,同时在各种最先进的基于FPGA的CNN加速器中具有高达3.94倍的性能密度。
Jul, 2023