在 Xilinx FPGA 上实现深度循环神经网络语言模型
本文利用 Xilinx 公司的可编程逻辑器件 Zynq 7020 FPGA,实现了基于 Long-Short Term Memory(LSTM)的循环神经网络(RNN)硬件加速,并测试了该实现在字符级语言模型上的表现。结果表明,相较于 Zynq 7020 FPGA 中内嵌的 ARM CPU,该实现快了超过 $21$ 倍,并具有潜在的扩展到未来移动设备的应用前景。
Nov, 2015
本研究开发了一种基于 FPGA 的定点深度神经网络系统,实现了手写数字识别和音素识别任务,相较于基于 GPU 的系统有更高的效率和更低的功耗。
Feb, 2016
本研究提出了动态流式传输模型参数和基于库的方法来实现传统 CNN 架构的可扩展和动态分布式 CNN 推断,利用部分重构技术提高了资源受限的边缘设备的性能,并在 Xilinx PYNQ-Z2 板上实现了 LeNet-5 CNN 模型,具有 92%,86%和 94%的分类准确率。
Feb, 2022
本研究介绍一种针对深度神经网络推理的覆盖层,通过引入一种轻量级的超长指令字(VLIW)网络支持控制和重新编程逻辑,以及实现了一个复杂的特定领域的图形编译器,以显著提高 CNNs/RNNs 的性能,最终在 Intel Arria 10 1150 上实现了~900 fps,并且对比以往研究,在性能方面有了巨大的进步。
Jul, 2018
本研究基于多种高级神经网络结构,包括卷积神经网络、循环神经网络、LSTM 和深度置信网络,利用可编程门阵列(FPGA)进行 ECG 信号分析,探索开发基于 PYNQ Z1 板的自定义张量计算单元(TCU)加速器,为各种应用程序优化神经网络性能提供指导。
Jul, 2023
利用深度学习加速器(DLA)和 Winograd 变换技术,我们在 Intel Arria 10 设备上实现了 1020 图像 / 秒的性能,比 FPGA 上最先进的技术快 10 倍,同时也具有 5.8 倍的更高效率,并且与 nVidia TitanX GPU 上基于 AlexNet 的最佳公开实现比 23 img/s/W 具有竞争力。
Jan, 2017
本文基于神经网络,使用 FPGA 开发了一个实时语音识别系统,其中使用两个重复神经网络进行声学建模和语言建模,并采用统计单词级别语言模型提高识别准确性。同时,使用 N-best 搜索算法,实现了简单的 AM、character-level LM、word-level LM 三者的结合,从而显著提高其响应速度。
Sep, 2016
通过对大型语言模型的空间加速进行研究,本文介绍了针对特定运算符或层的硬件单元专门化的方法,并通过数据流架构实现它们之间的直接通信,从而最小化片外内存访问延迟。研究通过在 AMD Alveo U280 FPGA 设备上实现 BERT 和 GPT2 模型,实验结果表明相较于之前的 FPGA 加速器,在 BERT 模型方面可以实现 16.1 倍的加速,在 GPT 生成推理方面,在前置阶段相较于 DFX,一个 FPGA 叠加层,在解码阶段相较于 NVIDIA A100 GPU,分别实现 2.2 倍的加速和 5.7 倍的能效提升。
Dec, 2023
本研究详细探讨了使用卷积神经网络(CNN)、循环神经网络(RNN)、长短期记忆网络(LSTM)和深度置信网络(DBN)通过可编程门阵列(FPGA)改进对心电图(ECG)信号的分析的复杂神经网络框架,使用 MIT-BIH 心律失常数据库作为模型训练和评估的基础,并加入高斯噪声来提高算法的鲁棒性。研究中我们采用多层结构进行特定处理和分类功能的设计,使用了 EarlyStopping 回调和 Dropout 层等策略来防止过拟合现象。此外,还详细介绍了为 PYNQ Z1 平台创建定制化的张量计算单元(TCU)加速器的过程。该研究提供了一个系统的方法论,涵盖了在 Docker 中配置 Tensil 工具链、选择架构、PS-PL 配置以及模型的编译和部署。通过评估延迟和吞吐量等性能指标,展示了 FPGA 在先进的生物医学计算中的效果。最终,本研究成果在各个领域优化 FPGA 上的神经网络操作提供了全面的指南。
Nov, 2023
本文介绍一种基于 Tensorflow 的开源工具流,可以将数值计算模型映射到可合成硬件,从而生成深度神经网络。这种工具流使用户可以用很少的 Python 代码生成计算深度神经网络。
Jul, 2018