LeFlow:灵活的 FPGA 张量流深度神经网络高层合成
本研究介绍一种针对深度神经网络推理的覆盖层,通过引入一种轻量级的超长指令字(VLIW)网络支持控制和重新编程逻辑,以及实现了一个复杂的特定领域的图形编译器,以显著提高 CNNs/RNNs 的性能,最终在 Intel Arria 10 1150 上实现了~900 fps,并且对比以往研究,在性能方面有了巨大的进步。
Jul, 2018
本文介绍了用于解决 SLAC 数据实验的高速探测器的存储问题的解决方案 —— 用机器学习技术在边缘计算设备上实现实时数据处理的 SLAC 神经网络库框架,该框架采用基于 FPGA 的加速器来实现 ML 解决方案,并且支持所有权重的 RTL 重训练和恢复。
May, 2023
本文综述以硬件加速为视角,探讨深度学习及可编程门阵列的发展趋势和革新,旨在讨论 FPGAs 在更好地为深度学习社区提供服务方面的最佳应用。
Feb, 2016
在大规模语言模型中使用图形处理单元 (GPUs) 作为硬件加速器,但是因为能源消耗大、运营成本高以及对边缘计算不适用等问题,我们开发了一种用于 transformers 的加速器 LLama 2,通过高级综合 (HLS) 来在 FPGAs 上进行原型设计。使用 HLS 的方法能够实现对 Intel Xeon Broadwell E5-2686 v4 CPU 和 NVIDIA RTX 3090 GPU 相比,Xilinx Virtex UltraScale+ VU9P FPGA 每个标记使用的能量减少了 12.75 倍和 8.25 倍,同时相对于 CPU 的推理速度提高了 2.46 倍,相对于 RTX 3090 GPU 的速度保持在 0.53 倍。我们开源了代码并记录了合成的步骤,希望这项工作能够推动 FPGAs 在 transformer 推理中的广泛应用,并激发对于能效推理方法的研究。
Apr, 2024
通过高级综合技术,在 FPGA 上加速图神经网络推理,实现了高达 50.8 倍的加速和 423 倍的能量降低,与 CPU 基线相比,以及高达 5.16 倍的加速和 74.5 倍的能量降低,与 GPU 基线相比。
Sep, 2023
在嵌入式 FPGA 中,通过混合量化方案加速极低比特宽度神经网络(ELB-NN),提出了一种设计流程,既涵盖了网络的训练,也包含了基于 FPGA 的网络部署,从而方便设计者探索设计空间,简化网络精度和计算效率之间的权衡,巧妙地在资源和功耗限制条件下提供边缘设备中的网络加速器,实现高达 10.3 TOPS 的高性能,每瓦分类达到 325.3 张图像。在文献中,我们比较了 GPU 或其他 FPGA 实现,结果显示出目前最省能的解决方案。
Jul, 2018
介绍了基于 FPGA 进行神经网络推理的案例研究,其使用高级综合技术(HLS)构建机器学习模型,旨在为粒子物理学的高速实时事件处理提供支持,适用于很多场合,如寻找新的暗扇区粒子和测量希格斯玻色子等。
Apr, 2018
我们通过开发一个可扩展的多 FPGA 平台和一些将大型应用映射到该平台的工具,探讨了使用多个 FPGA 实现大型 transformers 的可行性,并通过六个 FPGAs 的工作样例证明了我们的平台和工具的有效性,从而验证了在大型机器学习应用中使用 FPGAs 的可行性。
Apr, 2024
本研究详细探讨了使用卷积神经网络(CNN)、循环神经网络(RNN)、长短期记忆网络(LSTM)和深度置信网络(DBN)通过可编程门阵列(FPGA)改进对心电图(ECG)信号的分析的复杂神经网络框架,使用 MIT-BIH 心律失常数据库作为模型训练和评估的基础,并加入高斯噪声来提高算法的鲁棒性。研究中我们采用多层结构进行特定处理和分类功能的设计,使用了 EarlyStopping 回调和 Dropout 层等策略来防止过拟合现象。此外,还详细介绍了为 PYNQ Z1 平台创建定制化的张量计算单元(TCU)加速器的过程。该研究提供了一个系统的方法论,涵盖了在 Docker 中配置 Tensil 工具链、选择架构、PS-PL 配置以及模型的编译和部署。通过评估延迟和吞吐量等性能指标,展示了 FPGA 在先进的生物医学计算中的效果。最终,本研究成果在各个领域优化 FPGA 上的神经网络操作提供了全面的指南。
Nov, 2023
本研究旨在探索 FPGA 在高性能计算中的应用价值,通过对 Tensil AI 开源推理加速器进行硬件设计和编译优化,成功提升了推理性能,进一步证明了 FPGA 在计算加速中的优越性,通过实验数据证明所提出的加速器在单位能耗下的操作强度可达 21.12 GOP/s,相比市面上其他设备,具有更高的能源效率。
Apr, 2023