使用 FPGA 进行高性能计算的设计优化
利用深度学习加速器(DLA)和 Winograd 变换技术,我们在 Intel Arria 10 设备上实现了 1020 图像 / 秒的性能,比 FPGA 上最先进的技术快 10 倍,同时也具有 5.8 倍的更高效率,并且与 nVidia TitanX GPU 上基于 AlexNet 的最佳公开实现比 23 img/s/W 具有竞争力。
Jan, 2017
本文介绍了一种修改版 CNN 框架 Caffe,该框架支持 FPGA 实现,并使用 Xilinx SDAccel 环境实现了基于 FPGA 的 Winograd 卷积引擎,能够与其他运行在主机处理器上的层一起运行几个流行的 CNN 模型,取得了 50 GFLOPS 的成果。
Sep, 2016
本研究通过探索多种快速卷积算法,包括 Winograd 和 FFT,并发现了一种将它们应用于不同类型卷积的最佳策略;实现在基于高级综合的可配置 IP 人脸识别加速系统中使用 FaceNet,并利用并行化的优化方案在新型 CNN 体系结构上,实现比高端 NVIDIA GPU 快 3.75 倍的延迟加速,并显著超过先前的 FPGA 结果。
Mar, 2018
使用 FPGA 的推断加速器,通过优化计算数据流、降低存储需求和优化卷积神经网络的部署,实现了支持任意核大小的卷积神经网络的高效部署,从而在各种基于视觉的应用中取得了卓越的性能。
Feb, 2024
本文提出了用于深度学习框架的全栈编译器 DNNVM,通过优化图表现形式、循环和数据布局、关键算法和支持验证等,将复杂的 CNN 模型转换成有向无环图(XGraph)并利用启发式子图同构算法枚举所有潜在的融合机会,并在全计算图中搜索执行策略的最佳选择, 在 Xilinx ZU9 @330 MHz 等设备上实现了与最新算法同等状态的性能,最终在 VGG 和 ResNet50 上达到了最先进的性能。
Feb, 2019
本文介绍了一种基于硬件加速的卷积操作 FPGA 架构,旨在实现单层卷积的处理,以推出一种边缘 AI 解决方案 IP 核,实验结果表明它的峰值运算性能可达 4.48 GOPS。
Jun, 2022
本研究开发了一种基于 FPGA 的定点深度神经网络系统,实现了手写数字识别和音素识别任务,相较于基于 GPU 的系统有更高的效率和更低的功耗。
Feb, 2016
本文旨在实现深度神经网络硬件实现的超高能效和性能,提出一种面向不同类型、大小和应用场景的 DNN 算法 - 硬件协同优化框架,并在硬件部分采用高效的 FPGA 实现,实验表明与 IBM TrueNorth 处理器和参考的 FPGA 实现相比,该框架至少实现了 152 倍的加速和 71 倍的能效增益。
Feb, 2018
本研究设计的 EF-Train 是一种高效的 DNN 训练加速器,通过数据重塑,并建立自动计算和内存资源调度的分析模型,在低功耗边缘级 FPGA 上实现端到端的训练,最终达到了 46.99 GFLOPS 和 6.09GFLOPS/W 的吞吐量和能量效率。
Feb, 2022
本研究基于多种高级神经网络结构,包括卷积神经网络、循环神经网络、LSTM 和深度置信网络,利用可编程门阵列(FPGA)进行 ECG 信号分析,探索开发基于 PYNQ Z1 板的自定义张量计算单元(TCU)加速器,为各种应用程序优化神经网络性能提供指导。
Jul, 2023