LeFlow：灵活的 FPGA 张量流深度神经网络高层合成

MMJul, 2018

LeFlow：灵活的 FPGA 张量流深度神经网络高层合成

LeFlow: Enabling Flexible FPGA High-Level Synthesis of Tensorflow Deep Neural Networks

Daniel H. Noronha, Bahar Salehpour, Steven J.E. Wilton

TL;DR本文介绍一种基于 Tensorflow 的开源工具流，可以将数值计算模型映射到可合成硬件，从而生成深度神经网络。这种工具流使用户可以用很少的 Python 代码生成计算深度神经网络。

Abstract

Recent work has shown that field-programmable gate arrays (FPGAs) play an important role in the acceleration of machine learning applications. Initial specification of →

field-programmable gate arrays machine learning python tensorflow deep neural networks

发现论文，激发创造

面向神经网络推理加速的编译器和 FPGA 叠加

本研究介绍一种针对深度神经网络推理的覆盖层，通过引入一种轻量级的超长指令字（VLIW）网络支持控制和重新编程逻辑，以及实现了一个复杂的特定领域的图形编译器，以显著提高 CNNs/RNNs 的性能，最终在 Intel Arria 10 1150 上实现了～900 fps，并且对比以往研究，在性能方面有了巨大的进步。

Jul, 2018

在 FPGAs 中部署 AI 推理引擎的框架实现

本文介绍了用于解决 SLAC 数据实验的高速探测器的存储问题的解决方案 —— 用机器学习技术在边缘计算设备上实现实时数据处理的 SLAC 神经网络库框架，该框架采用基于 FPGA 的加速器来实现 ML 解决方案，并且支持所有权重的 RTL 重训练和恢复。

May, 2023

基于 FPGA 的深度学习：过去、现在和未来

本文综述以硬件加速为视角，探讨深度学习及可编程门阵列的发展趋势和革新，旨在讨论 FPGAs 在更好地为深度学习社区提供服务方面的最佳应用。

Feb, 2016

HLSTransform: 基于高层次综合的 FPGA 上能效优化的 Llama 2 推断

在大规模语言模型中使用图形处理单元 (GPUs) 作为硬件加速器，但是因为能源消耗大、运营成本高以及对边缘计算不适用等问题，我们开发了一种用于 transformers 的加速器 LLama 2，通过高级综合 (HLS) 来在 FPGAs 上进行原型设计。使用 HLS 的方法能够实现对 Intel Xeon Broadwell E5-2686 v4 CPU 和 NVIDIA RTX 3090 GPU 相比，Xilinx Virtex UltraScale+ VU9P FPGA 每个标记使用的能量减少了 12.75 倍和 8.25 倍，同时相对于 CPU 的推理速度提高了 2.46 倍，相对于 RTX 3090 GPU 的速度保持在 0.53 倍。我们开源了代码并记录了合成的步骤，希望这项工作能够推动 FPGAs 在 transformer 推理中的广泛应用，并激发对于能效推理方法的研究。

Apr, 2024

GNNHLS：通过高层综合评估图神经网络推断

通过高级综合技术，在 FPGA 上加速图神经网络推理，实现了高达 50.8 倍的加速和 423 倍的能量降低，与 CPU 基线相比，以及高达 5.16 倍的加速和 74.5 倍的能量降低，与 GPU 基线相比。

Sep, 2023

在嵌入式 FPGA 中加速混合极低位宽神经网络的设计流程

在嵌入式 FPGA 中，通过混合量化方案加速极低比特宽度神经网络（ELB-NN），提出了一种设计流程，既涵盖了网络的训练，也包含了基于 FPGA 的网络部署，从而方便设计者探索设计空间，简化网络精度和计算效率之间的权衡，巧妙地在资源和功耗限制条件下提供边缘设备中的网络加速器，实现高达 10.3 TOPS 的高性能，每瓦分类达到 325.3 张图像。在文献中，我们比较了 GPU 或其他 FPGA 实现，结果显示出目前最省能的解决方案。

Jul, 2018

基于 FPGA 的深度神经网络在粒子物理中的快速推断

介绍了基于 FPGA 进行神经网络推理的案例研究，其使用高级综合技术（HLS）构建机器学习模型，旨在为粒子物理学的高速实时事件处理提供支持，适用于很多场合，如寻找新的暗扇区粒子和测量希格斯玻色子等。

Apr, 2018

在多 FPGA 平台上实现大规模 Transformer 的可行性

我们通过开发一个可扩展的多 FPGA 平台和一些将大型应用映射到该平台的工具，探讨了使用多个 FPGA 实现大型 transformers 的可行性，并通过六个 FPGAs 的工作样例证明了我们的平台和工具的有效性，从而验证了在大型机器学习应用中使用 FPGAs 的可行性。

Apr, 2024

利用 FPGA 技术增强生物医学计算

本研究详细探讨了使用卷积神经网络（CNN）、循环神经网络（RNN）、长短期记忆网络（LSTM）和深度置信网络（DBN）通过可编程门阵列（FPGA）改进对心电图（ECG）信号的分析的复杂神经网络框架，使用 MIT-BIH 心律失常数据库作为模型训练和评估的基础，并加入高斯噪声来提高算法的鲁棒性。研究中我们采用多层结构进行特定处理和分类功能的设计，使用了 EarlyStopping 回调和 Dropout 层等策略来防止过拟合现象。此外，还详细介绍了为 PYNQ Z1 平台创建定制化的张量计算单元（TCU）加速器的过程。该研究提供了一个系统的方法论，涵盖了在 Docker 中配置 Tensil 工具链、选择架构、PS-PL 配置以及模型的编译和部署。通过评估延迟和吞吐量等性能指标，展示了 FPGA 在先进的生物医学计算中的效果。最终，本研究成果在各个领域优化 FPGA 上的神经网络操作提供了全面的指南。

Nov, 2023

使用 FPGA 进行高性能计算的设计优化

本研究旨在探索 FPGA 在高性能计算中的应用价值，通过对 Tensil AI 开源推理加速器进行硬件设计和编译优化，成功提升了推理性能，进一步证明了 FPGA 在计算加速中的优越性，通过实验数据证明所提出的加速器在单位能耗下的操作强度可达 21.12 GOP/s，相比市面上其他设备，具有更高的能源效率。

Apr, 2023