利用 FPGA 能力加速生物医学计算
本研究详细探讨了使用卷积神经网络(CNN)、循环神经网络(RNN)、长短期记忆网络(LSTM)和深度置信网络(DBN)通过可编程门阵列(FPGA)改进对心电图(ECG)信号的分析的复杂神经网络框架,使用 MIT-BIH 心律失常数据库作为模型训练和评估的基础,并加入高斯噪声来提高算法的鲁棒性。研究中我们采用多层结构进行特定处理和分类功能的设计,使用了 EarlyStopping 回调和 Dropout 层等策略来防止过拟合现象。此外,还详细介绍了为 PYNQ Z1 平台创建定制化的张量计算单元(TCU)加速器的过程。该研究提供了一个系统的方法论,涵盖了在 Docker 中配置 Tensil 工具链、选择架构、PS-PL 配置以及模型的编译和部署。通过评估延迟和吞吐量等性能指标,展示了 FPGA 在先进的生物医学计算中的效果。最终,本研究成果在各个领域优化 FPGA 上的神经网络操作提供了全面的指南。
Nov, 2023
本文介绍了各种技术如何被用于发展高效的深度学习加速器以解决医疗保健中的医学诊断、模式识别和信号处理等问题,同时探讨脉冲神经形态处理器如何拓展更多医学信号。最终,该文为读者提供了关于医疗保健和生物医学领域中不同加速器和神经形态处理器的优缺点、挑战和机遇的分析。
Jul, 2020
本文介绍了一种修改版 CNN 框架 Caffe,该框架支持 FPGA 实现,并使用 Xilinx SDAccel 环境实现了基于 FPGA 的 Winograd 卷积引擎,能够与其他运行在主机处理器上的层一起运行几个流行的 CNN 模型,取得了 50 GFLOPS 的成果。
Sep, 2016
本研究提出了动态流式传输模型参数和基于库的方法来实现传统 CNN 架构的可扩展和动态分布式 CNN 推断,利用部分重构技术提高了资源受限的边缘设备的性能,并在 Xilinx PYNQ-Z2 板上实现了 LeNet-5 CNN 模型,具有 92%,86%和 94%的分类准确率。
Feb, 2022
本研究通过探索多种快速卷积算法,包括 Winograd 和 FFT,并发现了一种将它们应用于不同类型卷积的最佳策略;实现在基于高级综合的可配置 IP 人脸识别加速系统中使用 FaceNet,并利用并行化的优化方案在新型 CNN 体系结构上,实现比高端 NVIDIA GPU 快 3.75 倍的延迟加速,并显著超过先前的 FPGA 结果。
Mar, 2018
本文研究了一种从训练好的 TensorFlow 模型到基于 FPGA 的二值化卷积神经网络系统的自动流程,并在 Cyclone-V FPGA 设备上实现了二值化的 YOLOV2,通过在目标检测上的实验,证明了与 CPU 和移动 CPU 平台相比,在 FPGA 上进行二值化幻化的模型大小和推理速度都有显著的性能提升。
Dec, 2017
本研究提出一种创新的方法,利用深度学习技术,特别是卷积神经网络(CNN),来解决心律失常分类的复杂性。通过利用多导联心电图(ECG)数据,我们的 CNN 模型在识别左束支传导阻滞(LBBB)、右束支传导阻滞(RBBB)、房性早搏(APC)、室性早搏(PVC)和正常心跳五种不同类型的心脏跳动方面展现出有希望的结果。我们的方法有望提高心血管心律失常的诊断准确性,为临床决策提供更精确的解决方案,从而改善患者的治疗结果。
Apr, 2024
本研究旨在探索 FPGA 在高性能计算中的应用价值,通过对 Tensil AI 开源推理加速器进行硬件设计和编译优化,成功提升了推理性能,进一步证明了 FPGA 在计算加速中的优越性,通过实验数据证明所提出的加速器在单位能耗下的操作强度可达 21.12 GOP/s,相比市面上其他设备,具有更高的能源效率。
Apr, 2023
本文利用 Xilinx 公司的可编程逻辑器件 Zynq 7020 FPGA,实现了基于 Long-Short Term Memory(LSTM)的循环神经网络(RNN)硬件加速,并测试了该实现在字符级语言模型上的表现。结果表明,相较于 Zynq 7020 FPGA 中内嵌的 ARM CPU,该实现快了超过 $21$ 倍,并具有潜在的扩展到未来移动设备的应用前景。
Nov, 2015
利用深度学习加速器(DLA)和 Winograd 变换技术,我们在 Intel Arria 10 设备上实现了 1020 图像 / 秒的性能,比 FPGA 上最先进的技术快 10 倍,同时也具有 5.8 倍的更高效率,并且与 nVidia TitanX GPU 上基于 AlexNet 的最佳公开实现比 23 img/s/W 具有竞争力。
Jan, 2017