N3H-Core: 神经元设计的基于 FPGA 的异构计算核心神经网络加速器
利用全连接层内的浮点精度作为每个分区内的刚性稀疏性和量化,我们提出了将整个子网络映射到单个查找表(LUT)中的方法,并通过引入跳跃连接来解决梯度消失等挑战,从而显着提高延迟。
Feb, 2024
通过对大型语言模型的空间加速进行研究,本文介绍了针对特定运算符或层的硬件单元专门化的方法,并通过数据流架构实现它们之间的直接通信,从而最小化片外内存访问延迟。研究通过在 AMD Alveo U280 FPGA 设备上实现 BERT 和 GPT2 模型,实验结果表明相较于之前的 FPGA 加速器,在 BERT 模型方面可以实现 16.1 倍的加速,在 GPT 生成推理方面,在前置阶段相较于 DFX,一个 FPGA 叠加层,在解码阶段相较于 NVIDIA A100 GPU,分别实现 2.2 倍的加速和 5.7 倍的能效提升。
Dec, 2023
本文提出了用于深度学习框架的全栈编译器 DNNVM,通过优化图表现形式、循环和数据布局、关键算法和支持验证等,将复杂的 CNN 模型转换成有向无环图(XGraph)并利用启发式子图同构算法枚举所有潜在的融合机会,并在全计算图中搜索执行策略的最佳选择, 在 Xilinx ZU9 @330 MHz 等设备上实现了与最新算法同等状态的性能,最终在 VGG 和 ResNet50 上达到了最先进的性能。
Feb, 2019
本研究旨在探索 FPGA 在高性能计算中的应用价值,通过对 Tensil AI 开源推理加速器进行硬件设计和编译优化,成功提升了推理性能,进一步证明了 FPGA 在计算加速中的优越性,通过实验数据证明所提出的加速器在单位能耗下的操作强度可达 21.12 GOP/s,相比市面上其他设备,具有更高的能源效率。
Apr, 2023
本研究提出了一种新的框架 NeuralMatrix,可以在一个单一的通用矩阵乘法加速器上计算多功能的深度神经网络,同时在性能和特定应用的加速水平方面与 CPU 和 GPU 等通用处理器相比具有优势。
May, 2023
本文介绍了一种基于硬件加速的卷积操作 FPGA 架构,旨在实现单层卷积的处理,以推出一种边缘 AI 解决方案 IP 核,实验结果表明它的峰值运算性能可达 4.48 GOPS。
Jun, 2022
使用 FPGA 的推断加速器,通过优化计算数据流、降低存储需求和优化卷积神经网络的部署,实现了支持任意核大小的卷积神经网络的高效部署,从而在各种基于视觉的应用中取得了卓越的性能。
Feb, 2024
基于低功耗的内嵌 FPGA 提出的分布式系统,可用于边缘计算应用,通过分布式调度优化深度学习负载以获得最佳性能,同时可以在多种配置下评估和管理神经网络工作负载。
May, 2023
本文提出了一种相结合的 FPGA/DNN 共同设计方法,包括自动设计流程和硬件优化的 DNN 模型搜索,结果表明在对象检测上该设计方案的 DNN 模型和加速器在交并比、帧数、功耗和能量效率等多个方面优于 GPU 解决方案。
Apr, 2019
通过 CPU-FPGA 异构系统,我们设计了一种新型加速器,通过算法 - 架构协同优化,提升 Graph Convolutional Networks 训练的速度。我们采用子图算法,优化特征传播,并提出基于 systolic array 的设计,实现了如此高效的加速。在 Xilinx Alveo U200 及 40 核 Xeon 服务器上,我们的设计比现有多核平台的最新实现快一个数量级,且几乎没有精度损失。
Dec, 2019