基于FPGA的卷积运算加速解决方案
利用深度学习加速器(DLA)和 Winograd 变换技术,我们在 Intel Arria 10 设备上实现了1020图像/秒的性能,比 FPGA 上最先进的技术快10倍,同时也具有5.8倍的更高效率,并且与 nVidia TitanX GPU 上基于 AlexNet 的最佳公开实现比 23 img/s/W 具有竞争力。
Jan, 2017
本文综述了现有的CNN-to-FPGA工具流,包括应用支持、架构选择、设计空间探索方法和性能等关键特性的比较研究,提出了最新CNN算法研究引入的主要挑战和目标,并提出了一种统一的评估方法,旨在全面、完整和深入地评估CNN-to-FPGA工具流。
Mar, 2018
本研究通过探索多种快速卷积算法,包括Winograd和FFT,并发现了一种将它们应用于不同类型卷积的最佳策略;实现在基于高级综合的可配置IP人脸识别加速系统中使用FaceNet,并利用并行化的优化方案在新型CNN体系结构上,实现比高端NVIDIA GPU快3.75倍的延迟加速,并显著超过先前的FPGA结果。
Mar, 2018
本文提出了一种算法-硬件协同设计的方法,开发了一种名为Synetgy的ConvNet加速器和一种新颖的ConvNet模型DiracDeltaNet,可以高效地在FPGA上运行,得到了更高的准确率和更快的推理速度。
Nov, 2018
本文研究了在FPGA-based CNNs中采用一种称为on-the-fly的方法来预处理卷积核的设计,提出了解决方案并开发了一个名为unzipFPGA的框架,通过量化评估得出结论:在容约束带宽和优化现状和pruned CNN的引擎下,unzipFPGA的平均加速比为2.14倍,性能密度高达现有技术的3.69倍。
Mar, 2021
本研究提出了动态流式传输模型参数和基于库的方法来实现传统CNN架构的可扩展和动态分布式CNN推断,利用部分重构技术提高了资源受限的边缘设备的性能,并在Xilinx PYNQ-Z2板上实现了LeNet-5 CNN模型,具有92%,86%和94%的分类准确率。
Feb, 2022
本文介绍了一种基于OpenCL的卷积神经网络加速器设计,称为FFCNN,它包括数据重用和任务映射技术,这些技术可以在大规模图像分类中提高性能和资源利用率。
Aug, 2022
使用FPGA的推断加速器,通过优化计算数据流、降低存储需求和优化卷积神经网络的部署,实现了支持任意核大小的卷积神经网络的高效部署,从而在各种基于视觉的应用中取得了卓越的性能。
Feb, 2024
本研究解决了在边缘设备上部署卷积神经网络(CNN)的复杂性和劳动强度问题。通过开发一个端到端的工作流程,利用Gemmini加速器和开源软件优化部署过程,研究显示在Xilinx ZCU102 FPGA上部署YOLOv7模型可实现实时性能和36.5 GOP/s/W的能效表现,显著优于其他嵌入式硬件设备。此方案在交通监控场景中的应用展示了其广泛的潜在影响。
Aug, 2024