一种基于FPGA的加速器,实现对任意核大小的CNN的高效支持
本文介绍了一种修改版CNN框架Caffe,该框架支持FPGA实现,并使用Xilinx SDAccel环境实现了基于FPGA的Winograd卷积引擎,能够与其他运行在主机处理器上的层一起运行几个流行的CNN模型,取得了50 GFLOPS的成果。
Sep, 2016
本文介绍FINN,一种用于构建快速、灵活的FPGA加速器的框架,该框架使用灵活的异构流式架构,并利用一组优化,将二值化神经网络映射到硬件上,从而实现完全连接、卷积和池化层,同时满足用户提供的吞吐量要求。在低于25W的总系统功率下,该平台在MNIST数据集上表现出高达1230万次图像分类每秒,0.31微秒的延迟和95.8%的准确率,在CIFAR-10和SVHN数据集上表现出21906次和283微秒的延迟、80.1%和94.9%的准确率,这是目前这些基准测试中报道的最快的分类率。
Dec, 2016
本文综述了现有的CNN-to-FPGA工具流,包括应用支持、架构选择、设计空间探索方法和性能等关键特性的比较研究,提出了最新CNN算法研究引入的主要挑战和目标,并提出了一种统一的评估方法,旨在全面、完整和深入地评估CNN-to-FPGA工具流。
Mar, 2018
本文研究了在FPGA-based CNNs中采用一种称为on-the-fly的方法来预处理卷积核的设计,提出了解决方案并开发了一个名为unzipFPGA的框架,通过量化评估得出结论:在容约束带宽和优化现状和pruned CNN的引擎下,unzipFPGA的平均加速比为2.14倍,性能密度高达现有技术的3.69倍。
Mar, 2021
本研究提出了动态流式传输模型参数和基于库的方法来实现传统CNN架构的可扩展和动态分布式CNN推断,利用部分重构技术提高了资源受限的边缘设备的性能,并在Xilinx PYNQ-Z2板上实现了LeNet-5 CNN模型,具有92%,86%和94%的分类准确率。
Feb, 2022
本文介绍了一种基于硬件加速的卷积操作FPGA架构,旨在实现单层卷积的处理,以推出一种边缘AI解决方案IP核,实验结果表明它的峰值运算性能可达4.48 GOPS。
Jun, 2022
本文介绍了一种基于OpenCL的卷积神经网络加速器设计,称为FFCNN,它包括数据重用和任务映射技术,这些技术可以在大规模图像分类中提高性能和资源利用率。
Aug, 2022
本文介绍了一种名为unzipFPGA的CNN推断系统,它通过引入权重生成模块实现了芯片上的实时权重生成,为小容量内存限制的层提供了更好的支持;此外,还介绍了一种自动化硬件感知的方法,将权重生成机制与目标CNN设备进行搭配,从而实现了更好的准确性和性能平衡;最后,还引入了一种输入选择性处理单元(PE)设计,平衡了子优化映射层的负载。该提议的框架在相同功耗约束下,与高度优化的GPU设计相比,实现了平均2.57倍的性能效率提升,同时在各种最先进的基于FPGA的CNN加速器中具有高达3.94倍的性能密度。
Jul, 2023
本研究提出了一种基于FPGA的加速器,用于提高Vision Transformers的硬件效率,其中采用了可重构的架构以支持各种操作类型,并通过时分复用和流水线数据流来降低片外数据访问成本,实验证明其在Xilinx ZCU102 FPGA上能够显著优于之前的工作,达到了高达780.2 GOPS的吞吐量和105.1 GOPS/W的能效比。
Mar, 2024
本研究解决了在FPGA上实现高性能卷积神经网络推理所需的高带宽内存问题。通过将高带宽内存与芯片内存结合,提出了一种新的层级流水数据流加速器设计,提升了大规模CNN的计算效率。实验表明,与现有方案相比,该方法在ResNet-18、ResNet-50和VGG-16上分别获得至少19.4倍、5.1倍和10.5倍的速度提升。
Aug, 2024