面向 FPGA 的领域特定应用的高效卷积神经网络
本文介绍了一种修改版 CNN 框架 Caffe,该框架支持 FPGA 实现,并使用 Xilinx SDAccel 环境实现了基于 FPGA 的 Winograd 卷积引擎,能够与其他运行在主机处理器上的层一起运行几个流行的 CNN 模型,取得了 50 GFLOPS 的成果。
Sep, 2016
本研究设计的 EF-Train 是一种高效的 DNN 训练加速器,通过数据重塑,并建立自动计算和内存资源调度的分析模型,在低功耗边缘级 FPGA 上实现端到端的训练,最终达到了 46.99 GFLOPS 和 6.09GFLOPS/W 的吞吐量和能量效率。
Feb, 2022
使用 FPGA 的推断加速器,通过优化计算数据流、降低存储需求和优化卷积神经网络的部署,实现了支持任意核大小的卷积神经网络的高效部署,从而在各种基于视觉的应用中取得了卓越的性能。
Feb, 2024
本研究通过探索多种快速卷积算法,包括 Winograd 和 FFT,并发现了一种将它们应用于不同类型卷积的最佳策略;实现在基于高级综合的可配置 IP 人脸识别加速系统中使用 FaceNet,并利用并行化的优化方案在新型 CNN 体系结构上,实现比高端 NVIDIA GPU 快 3.75 倍的延迟加速,并显著超过先前的 FPGA 结果。
Mar, 2018
研究提出一种工具流程,将 3D CNN 模型优化到 FPGA 设备上,采用同步数据流图来模拟设计并引入转换来拓展和探索设计空间,以实现高吞吐量设计。在多个 FPGA 设备上评估了各种 3D CNN 模型,证明了与早期手动调整和特定模型的设计相比,该工具流程具有竞争性的性能。
May, 2023
本研究旨在探索 FPGA 在高性能计算中的应用价值,通过对 Tensil AI 开源推理加速器进行硬件设计和编译优化,成功提升了推理性能,进一步证明了 FPGA 在计算加速中的优越性,通过实验数据证明所提出的加速器在单位能耗下的操作强度可达 21.12 GOP/s,相比市面上其他设备,具有更高的能源效率。
Apr, 2023
本研究提出了动态流式传输模型参数和基于库的方法来实现传统 CNN 架构的可扩展和动态分布式 CNN 推断,利用部分重构技术提高了资源受限的边缘设备的性能,并在 Xilinx PYNQ-Z2 板上实现了 LeNet-5 CNN 模型,具有 92%,86%和 94%的分类准确率。
Feb, 2022
GCV-Turbo 是一款基于 FPGA 的领域特定加速器,用于端到端加速基于图神经网络的计算机视觉任务,可以提供高性能加速并支持独立的 CNN 或 GNN 执行。
Apr, 2024
利用深度学习加速器(DLA)和 Winograd 变换技术,我们在 Intel Arria 10 设备上实现了 1020 图像 / 秒的性能,比 FPGA 上最先进的技术快 10 倍,同时也具有 5.8 倍的更高效率,并且与 nVidia TitanX GPU 上基于 AlexNet 的最佳公开实现比 23 img/s/W 具有竞争力。
Jan, 2017
本文提出了一个使用 Synchronous Dataflow(SDF)模型的端到端框架 fpgaConvNet,该框架可用于将卷积神经网络 (ConvNets) 映射到 FPGAs 上,实现了对性能度量的有效优化,并在嵌入式环境中将性能提高了最高 6.65x。
Nov, 2017