面向FPGA的领域特定应用的高效卷积神经网络
本文介绍了一种修改版CNN框架Caffe,该框架支持FPGA实现,并使用Xilinx SDAccel环境实现了基于FPGA的Winograd卷积引擎,能够与其他运行在主机处理器上的层一起运行几个流行的CNN模型,取得了50 GFLOPS的成果。
Sep, 2016
本文介绍FINN,一种用于构建快速、灵活的FPGA加速器的框架,该框架使用灵活的异构流式架构,并利用一组优化,将二值化神经网络映射到硬件上,从而实现完全连接、卷积和池化层,同时满足用户提供的吞吐量要求。在低于25W的总系统功率下,该平台在MNIST数据集上表现出高达1230万次图像分类每秒,0.31微秒的延迟和95.8%的准确率,在CIFAR-10和SVHN数据集上表现出21906次和283微秒的延迟、80.1%和94.9%的准确率,这是目前这些基准测试中报道的最快的分类率。
Dec, 2016
利用深度学习加速器(DLA)和 Winograd 变换技术,我们在 Intel Arria 10 设备上实现了1020图像/秒的性能,比 FPGA 上最先进的技术快10倍,同时也具有5.8倍的更高效率,并且与 nVidia TitanX GPU 上基于 AlexNet 的最佳公开实现比 23 img/s/W 具有竞争力。
Jan, 2017
本文提出了一个使用Synchronous Dataflow(SDF)模型的端到端框架fpgaConvNet,该框架可用于将卷积神经网络(ConvNets)映射到FPGAs上,实现了对性能度量的有效优化,并在嵌入式环境中将性能提高了最高6.65x。
Nov, 2017
本文综述了现有的CNN-to-FPGA工具流,包括应用支持、架构选择、设计空间探索方法和性能等关键特性的比较研究,提出了最新CNN算法研究引入的主要挑战和目标,并提出了一种统一的评估方法,旨在全面、完整和深入地评估CNN-to-FPGA工具流。
Mar, 2018
该论文提出了一种自动化设计流程f-CNN$^{ ext{x}}$,用于在FPGA上映射多个CNN,包括一个新的多CNN硬件架构和自动化设计空间探索方法,以考虑每个模型的性能要求来分配计算资源和生成可合成加速器。此外,f-CNN$^{ ext{x}}$采用一种新的调度算法,可以缓解CNN之间的内存带宽争用限制,并维持架构的高利用率。实验评估表明,f-CNN$^{ ext{x}}$的设计比不考虑争用的FPGA映射效果提高了多达50%,并为多CNN系统提供了高达6.8倍的性能功耗比。
May, 2018
本文研究了在FPGA-based CNNs中采用一种称为on-the-fly的方法来预处理卷积核的设计,提出了解决方案并开发了一个名为unzipFPGA的框架,通过量化评估得出结论:在容约束带宽和优化现状和pruned CNN的引擎下,unzipFPGA的平均加速比为2.14倍,性能密度高达现有技术的3.69倍。
Mar, 2021
本文介绍了一种基于硬件加速的卷积操作FPGA架构,旨在实现单层卷积的处理,以推出一种边缘AI解决方案IP核,实验结果表明它的峰值运算性能可达4.48 GOPS。
Jun, 2022
使用FPGA的推断加速器,通过优化计算数据流、降低存储需求和优化卷积神经网络的部署,实现了支持任意核大小的卷积神经网络的高效部署,从而在各种基于视觉的应用中取得了卓越的性能。
Feb, 2024