N3H-Core: 神经元设计的基于 FPGA 的异构计算核心神经网络加速器

MMDec, 2021

N3H-Core: 神经元设计的基于 FPGA 的异构计算核心神经网络加速器

N3H-Core: Neuron-designed Neural Network Accelerator via FPGA-based Heterogeneous Computing Cores

Yu Gong, Zhihan Xu, Zhezhi He, Weifeng Zhang, Xiaobing Tu...

TL;DR本文介绍了一种 FPGA 加速神经网络评估的异构计算系统，通过利用 DSP 和 LUT 的不同资源优势进行计算。作者运用强化学习算法对系统进行优化，使得该系统在减少延迟的同时提高了精度表现。

Abstract

Accelerating the neural network inference by fpga has emerged as a popular option, since the reconfigurability and high performance computing capability of →

fpga neural network acceleration heterogeneous computing reinforcement learning

发现论文，激发创造

NeuraLUT：在布尔可综合函数中隐藏神经网络密度

利用全连接层内的浮点精度作为每个分区内的刚性稀疏性和量化，我们提出了将整个子网络映射到单个查找表（LUT）中的方法，并通过引入跳跃连接来解决梯度消失等挑战，从而显着提高延迟。

Feb, 2024

理解基于 FPGA 的空间加速对大型语言模型推理的潜力

通过对大型语言模型的空间加速进行研究，本文介绍了针对特定运算符或层的硬件单元专门化的方法，并通过数据流架构实现它们之间的直接通信，从而最小化片外内存访问延迟。研究通过在 AMD Alveo U280 FPGA 设备上实现 BERT 和 GPT2 模型，实验结果表明相较于之前的 FPGA 加速器，在 BERT 模型方面可以实现 16.1 倍的加速，在 GPT 生成推理方面，在前置阶段相较于 DFX，一个 FPGA 叠加层，在解码阶段相较于 NVIDIA A100 GPU，分别实现 2.2 倍的加速和 5.7 倍的能效提升。

Dec, 2023

DNNVM: FPGA-based CNN 加速器上利用异构优化的端到端编译器

本文提出了用于深度学习框架的全栈编译器 DNNVM，通过优化图表现形式、循环和数据布局、关键算法和支持验证等，将复杂的 CNN 模型转换成有向无环图（XGraph）并利用启发式子图同构算法枚举所有潜在的融合机会，并在全计算图中搜索执行策略的最佳选择，在 Xilinx ZU9 @330 MHz 等设备上实现了与最新算法同等状态的性能，最终在 VGG 和 ResNet50 上达到了最先进的性能。

Feb, 2019

使用 FPGA 进行高性能计算的设计优化

本研究旨在探索 FPGA 在高性能计算中的应用价值，通过对 Tensil AI 开源推理加速器进行硬件设计和编译优化，成功提升了推理性能，进一步证明了 FPGA 在计算加速中的优越性，通过实验数据证明所提出的加速器在单位能耗下的操作强度可达 21.12 GOP/s，相比市面上其他设备，具有更高的能源效率。

Apr, 2023

NeuralMatrix：将整个神经网络转换为通用矩阵乘法以实现高效推断

本研究提出了一种新的框架 NeuralMatrix，可以在一个单一的通用矩阵乘法加速器上计算多功能的深度神经网络，同时在性能和特定应用的加速水平方面与 CPU 和 GPU 等通用处理器相比具有优势。

May, 2023

基于 FPGA 的卷积运算加速解决方案

本文介绍了一种基于硬件加速的卷积操作 FPGA 架构，旨在实现单层卷积的处理，以推出一种边缘 AI 解决方案 IP 核，实验结果表明它的峰值运算性能可达 4.48 GOPS。

Jun, 2022

一种基于 FPGA 的加速器，实现对任意核大小的 CNN 的高效支持

使用 FPGA 的推断加速器，通过优化计算数据流、降低存储需求和优化卷积神经网络的部署，实现了支持任意核大小的卷积神经网络的高效部署，从而在各种基于视觉的应用中取得了卓越的性能。

Feb, 2024

可重构分布式 FPGA 集群设计用于深度学习加速器

基于低功耗的内嵌 FPGA 提出的分布式系统，可用于边缘计算应用，通过分布式调度优化深度学习负载以获得最佳性能，同时可以在多种配置下评估和管理神经网络工作负载。

May, 2023

FPGA/DNN Co-Design: 物联网边缘智能的高效设计方法

本文提出了一种相结合的 FPGA/DNN 共同设计方法，包括自动设计流程和硬件优化的 DNN 模型搜索，结果表明在对象检测上该设计方案的 DNN 模型和加速器在交并比、帧数、功耗和能量效率等多个方面优于 GPU 解决方案。

Apr, 2019

GraphACT: 在 CPU-FPGA 异构平台上加速 GCN 训练

通过 CPU-FPGA 异构系统，我们设计了一种新型加速器，通过算法 - 架构协同优化，提升 Graph Convolutional Networks 训练的速度。我们采用子图算法，优化特征传播，并提出基于 systolic array 的设计，实现了如此高效的加速。在 Xilinx Alveo U200 及 40 核 Xeon 服务器上，我们的设计比现有多核平台的最新实现快一个数量级，且几乎没有精度损失。

Dec, 2019