FFCNN:基于 FPGA 的卷积神经网络推理快速加速
本文介绍了一种修改版 CNN 框架 Caffe,该框架支持 FPGA 实现,并使用 Xilinx SDAccel 环境实现了基于 FPGA 的 Winograd 卷积引擎,能够与其他运行在主机处理器上的层一起运行几个流行的 CNN 模型,取得了 50 GFLOPS 的成果。
Sep, 2016
本研究通过探索多种快速卷积算法,包括 Winograd 和 FFT,并发现了一种将它们应用于不同类型卷积的最佳策略;实现在基于高级综合的可配置 IP 人脸识别加速系统中使用 FaceNet,并利用并行化的优化方案在新型 CNN 体系结构上,实现比高端 NVIDIA GPU 快 3.75 倍的延迟加速,并显著超过先前的 FPGA 结果。
Mar, 2018
使用 FPGA 的推断加速器,通过优化计算数据流、降低存储需求和优化卷积神经网络的部署,实现了支持任意核大小的卷积神经网络的高效部署,从而在各种基于视觉的应用中取得了卓越的性能。
Feb, 2024
该论文提出了一种自动化设计流程 f-CNN$^{ext {x}}$,用于在 FPGA 上映射多个 CNN,包括一个新的多 CNN 硬件架构和自动化设计空间探索方法,以考虑每个模型的性能要求来分配计算资源和生成可合成加速器。此外,f-CNN$^{ext {x}}$ 采用一种新的调度算法,可以缓解 CNN 之间的内存带宽争用限制,并维持架构的高利用率。实验评估表明,f-CNN$^{ext {x}}$ 的设计比不考虑争用的 FPGA 映射效果提高了多达 50%,并为多 CNN 系统提供了高达 6.8 倍的性能功耗比。
May, 2018
利用深度学习加速器(DLA)和 Winograd 变换技术,我们在 Intel Arria 10 设备上实现了 1020 图像 / 秒的性能,比 FPGA 上最先进的技术快 10 倍,同时也具有 5.8 倍的更高效率,并且与 nVidia TitanX GPU 上基于 AlexNet 的最佳公开实现比 23 img/s/W 具有竞争力。
Jan, 2017
本文提出了一个使用 Synchronous Dataflow(SDF)模型的端到端框架 fpgaConvNet,该框架可用于将卷积神经网络 (ConvNets) 映射到 FPGAs 上,实现了对性能度量的有效优化,并在嵌入式环境中将性能提高了最高 6.65x。
Nov, 2017
本研究提出了动态流式传输模型参数和基于库的方法来实现传统 CNN 架构的可扩展和动态分布式 CNN 推断,利用部分重构技术提高了资源受限的边缘设备的性能,并在 Xilinx PYNQ-Z2 板上实现了 LeNet-5 CNN 模型,具有 92%,86%和 94%的分类准确率。
Feb, 2022
本文介绍了一种基于硬件加速的卷积操作 FPGA 架构,旨在实现单层卷积的处理,以推出一种边缘 AI 解决方案 IP 核,实验结果表明它的峰值运算性能可达 4.48 GOPS。
Jun, 2022
本文研究了卷积神经网络在当前 NVIDIA 图形处理器上的性能,介绍了两种新的快速傅立叶变换卷积实现,对于整个 CNN,fbfft 比 cuFFT 快 1.5 倍以上,并且对于许多普通的卷积层,速度也比 NVIDIA 的 cuDNN 实现 快(达到了一些合成内核配置的 23.5 倍)。
Dec, 2014