使用 FPGA 进行高性能计算的设计优化

Apr, 2023

使用 FPGA 进行高性能计算的设计优化

Design optimization for high-performance computing using FPGA

Murat Isik, Kayode Inadagbo, Hakan Aktas

TL;DR本研究旨在探索 FPGA 在高性能计算中的应用价值，通过对 Tensil AI 开源推理加速器进行硬件设计和编译优化，成功提升了推理性能，进一步证明了 FPGA 在计算加速中的优越性，通过实验数据证明所提出的加速器在单位能耗下的操作强度可达 21.12 GOP/s，相比市面上其他设备，具有更高的能源效率。

Abstract

Reconfigurable architectures like Field Programmable Gate Arrays (FPGAs) have been used for accelerating computations in several domains because of their unique combination of flexibility, performance, and power efficiency. However, FPGAs have not been widely used for high-

fpga acceleration performance inference energy efficiency

发现论文，激发创造

Arria 10 上的 OpenCL (TM) 深度学习加速器

利用深度学习加速器（DLA）和 Winograd 变换技术，我们在 Intel Arria 10 设备上实现了 1020 图像 / 秒的性能，比 FPGA 上最先进的技术快 10 倍，同时也具有 5.8 倍的更高效率，并且与 nVidia TitanX GPU 上基于 AlexNet 的最佳公开实现比 23 img/s/W 具有竞争力。

Jan, 2017

咖啡因 FPGA：用于卷积神经网络的 FPGA 框架

本文介绍了一种修改版 CNN 框架 Caffe，该框架支持 FPGA 实现，并使用 Xilinx SDAccel 环境实现了基于 FPGA 的 Winograd 卷积引擎，能够与其他运行在主机处理器上的层一起运行几个流行的 CNN 模型，取得了 50 GFLOPS 的成果。

Sep, 2016

基于 FPGA 的混合高效卷积算法的人脸识别

本研究通过探索多种快速卷积算法，包括 Winograd 和 FFT，并发现了一种将它们应用于不同类型卷积的最佳策略；实现在基于高级综合的可配置 IP 人脸识别加速系统中使用 FaceNet，并利用并行化的优化方案在新型 CNN 体系结构上，实现比高端 NVIDIA GPU 快 3.75 倍的延迟加速，并显著超过先前的 FPGA 结果。

Mar, 2018

一种基于 FPGA 的加速器，实现对任意核大小的 CNN 的高效支持

使用 FPGA 的推断加速器，通过优化计算数据流、降低存储需求和优化卷积神经网络的部署，实现了支持任意核大小的卷积神经网络的高效部署，从而在各种基于视觉的应用中取得了卓越的性能。

Feb, 2024

DNNVM: FPGA-based CNN 加速器上利用异构优化的端到端编译器

本文提出了用于深度学习框架的全栈编译器 DNNVM，通过优化图表现形式、循环和数据布局、关键算法和支持验证等，将复杂的 CNN 模型转换成有向无环图（XGraph）并利用启发式子图同构算法枚举所有潜在的融合机会，并在全计算图中搜索执行策略的最佳选择，在 Xilinx ZU9 @330 MHz 等设备上实现了与最新算法同等状态的性能，最终在 VGG 和 ResNet50 上达到了最先进的性能。

Feb, 2019

基于 FPGA 的卷积运算加速解决方案

本文介绍了一种基于硬件加速的卷积操作 FPGA 架构，旨在实现单层卷积的处理，以推出一种边缘 AI 解决方案 IP 核，实验结果表明它的峰值运算性能可达 4.48 GOPS。

Jun, 2022

基于 FPGA 的深度神经网络实现，仅使用芯片内存

本研究开发了一种基于 FPGA 的定点深度神经网络系统，实现了手写数字识别和音素识别任务，相较于基于 GPU 的系统有更高的效率和更低的功耗。

Feb, 2016

深度学习系统的超高性能和能量效率：一种算法 - 硬件协同优化框架

本文旨在实现深度神经网络硬件实现的超高能效和性能，提出一种面向不同类型、大小和应用场景的 DNN 算法 - 硬件协同优化框架，并在硬件部分采用高效的 FPGA 实现，实验表明与 IBM TrueNorth 处理器和参考的 FPGA 实现相比，该框架至少实现了 152 倍的加速和 71 倍的能效增益。

Feb, 2018

EF-Train: FPGA 上通过数据重塑实现高效的 CNN 设备端训练以进行在线适应或个性化

本研究设计的 EF-Train 是一种高效的 DNN 训练加速器，通过数据重塑，并建立自动计算和内存资源调度的分析模型，在低功耗边缘级 FPGA 上实现端到端的训练，最终达到了 46.99 GFLOPS 和 6.09GFLOPS/W 的吞吐量和能量效率。

Feb, 2022

利用 FPGA 能力加速生物医学计算

本研究基于多种高级神经网络结构，包括卷积神经网络、循环神经网络、LSTM 和深度置信网络，利用可编程门阵列（FPGA）进行 ECG 信号分析，探索开发基于 PYNQ Z1 板的自定义张量计算单元（TCU）加速器，为各种应用程序优化神经网络性能提供指导。

Jul, 2023