在 Xilinx FPGA 上实现深度循环神经网络语言模型

Oct, 2017

在 Xilinx FPGA 上实现深度循环神经网络语言模型

The implementation of a Deep Recurrent Neural Network Language Model on a Xilinx FPGA

Yufeng Hao, Steven Quigley

TL;DR本论文研究了如何在单个 FPGA 平台上利用硬件加速器和 PYNQ 来实现 DRNN 语言模型加速，实验结果显示，在 PYNQ 板上 Overlay 加速器的 AXI Stream 接口性能为 20 GOPS，相较 Ref.30 和 Ref.31 的工作分别提高了 70.5 倍和 2.75 倍。

Abstract

Recently, fpga has been increasingly applied to problems such as speech recognition, machine learning, and cloud computation such as the Bing search engine used by Microsoft. This is due to FPGAs great parallel computation capacity as well as low power consumption compared to general p

fpga drnn language model hardware accelerator pynq

发现论文，激发创造

基于 FPGA 的循环神经网络硬件实现

本文利用 Xilinx 公司的可编程逻辑器件 Zynq 7020 FPGA，实现了基于 Long-Short Term Memory（LSTM）的循环神经网络（RNN）硬件加速，并测试了该实现在字符级语言模型上的表现。结果表明，相较于 Zynq 7020 FPGA 中内嵌的 ARM CPU，该实现快了超过 $21$ 倍，并具有潜在的扩展到未来移动设备的应用前景。

Nov, 2015

基于 FPGA 的深度神经网络实现，仅使用芯片内存

本研究开发了一种基于 FPGA 的定点深度神经网络系统，实现了手写数字识别和音素识别任务，相较于基于 GPU 的系统有更高的效率和更低的功耗。

Feb, 2016

实现边缘智能动态卷积神经网络推理的探索

本研究提出了动态流式传输模型参数和基于库的方法来实现传统 CNN 架构的可扩展和动态分布式 CNN 推断，利用部分重构技术提高了资源受限的边缘设备的性能，并在 Xilinx PYNQ-Z2 板上实现了 LeNet-5 CNN 模型，具有 92％，86％和 94％的分类准确率。

Feb, 2022

面向神经网络推理加速的编译器和 FPGA 叠加

本研究介绍一种针对深度神经网络推理的覆盖层，通过引入一种轻量级的超长指令字（VLIW）网络支持控制和重新编程逻辑，以及实现了一个复杂的特定领域的图形编译器，以显著提高 CNNs/RNNs 的性能，最终在 Intel Arria 10 1150 上实现了～900 fps，并且对比以往研究，在性能方面有了巨大的进步。

Jul, 2018

利用 FPGA 能力加速生物医学计算

本研究基于多种高级神经网络结构，包括卷积神经网络、循环神经网络、LSTM 和深度置信网络，利用可编程门阵列（FPGA）进行 ECG 信号分析，探索开发基于 PYNQ Z1 板的自定义张量计算单元（TCU）加速器，为各种应用程序优化神经网络性能提供指导。

Jul, 2023

Arria 10 上的 OpenCL (TM) 深度学习加速器

利用深度学习加速器（DLA）和 Winograd 变换技术，我们在 Intel Arria 10 设备上实现了 1020 图像 / 秒的性能，比 FPGA 上最先进的技术快 10 倍，同时也具有 5.8 倍的更高效率，并且与 nVidia TitanX GPU 上基于 AlexNet 的最佳公开实现比 23 img/s/W 具有竞争力。

Jan, 2017

基于 FPGA 的低功耗循环神经网络语音识别

本文基于神经网络，使用 FPGA 开发了一个实时语音识别系统，其中使用两个重复神经网络进行声学建模和语言建模，并采用统计单词级别语言模型提高识别准确性。同时，使用 N-best 搜索算法，实现了简单的 AM、character-level LM、word-level LM 三者的结合，从而显著提高其响应速度。

Sep, 2016

理解基于 FPGA 的空间加速对大型语言模型推理的潜力

通过对大型语言模型的空间加速进行研究，本文介绍了针对特定运算符或层的硬件单元专门化的方法，并通过数据流架构实现它们之间的直接通信，从而最小化片外内存访问延迟。研究通过在 AMD Alveo U280 FPGA 设备上实现 BERT 和 GPT2 模型，实验结果表明相较于之前的 FPGA 加速器，在 BERT 模型方面可以实现 16.1 倍的加速，在 GPT 生成推理方面，在前置阶段相较于 DFX，一个 FPGA 叠加层，在解码阶段相较于 NVIDIA A100 GPU，分别实现 2.2 倍的加速和 5.7 倍的能效提升。

Dec, 2023

利用 FPGA 技术增强生物医学计算

本研究详细探讨了使用卷积神经网络（CNN）、循环神经网络（RNN）、长短期记忆网络（LSTM）和深度置信网络（DBN）通过可编程门阵列（FPGA）改进对心电图（ECG）信号的分析的复杂神经网络框架，使用 MIT-BIH 心律失常数据库作为模型训练和评估的基础，并加入高斯噪声来提高算法的鲁棒性。研究中我们采用多层结构进行特定处理和分类功能的设计，使用了 EarlyStopping 回调和 Dropout 层等策略来防止过拟合现象。此外，还详细介绍了为 PYNQ Z1 平台创建定制化的张量计算单元（TCU）加速器的过程。该研究提供了一个系统的方法论，涵盖了在 Docker 中配置 Tensil 工具链、选择架构、PS-PL 配置以及模型的编译和部署。通过评估延迟和吞吐量等性能指标，展示了 FPGA 在先进的生物医学计算中的效果。最终，本研究成果在各个领域优化 FPGA 上的神经网络操作提供了全面的指南。

Nov, 2023

LeFlow：灵活的 FPGA 张量流深度神经网络高层合成

本文介绍一种基于 Tensorflow 的开源工具流，可以将数值计算模型映射到可合成硬件，从而生成深度神经网络。这种工具流使用户可以用很少的 Python 代码生成计算深度神经网络。

Jul, 2018