自动生成 FPGA 上的多精度多算术卷积神经网络加速器
使用 FPGA 的推断加速器,通过优化计算数据流、降低存储需求和优化卷积神经网络的部署,实现了支持任意核大小的卷积神经网络的高效部署,从而在各种基于视觉的应用中取得了卓越的性能。
Feb, 2024
该论文提出了一种自动化设计流程 f-CNN$^{ext {x}}$,用于在 FPGA 上映射多个 CNN,包括一个新的多 CNN 硬件架构和自动化设计空间探索方法,以考虑每个模型的性能要求来分配计算资源和生成可合成加速器。此外,f-CNN$^{ext {x}}$ 采用一种新的调度算法,可以缓解 CNN 之间的内存带宽争用限制,并维持架构的高利用率。实验评估表明,f-CNN$^{ext {x}}$ 的设计比不考虑争用的 FPGA 映射效果提高了多达 50%,并为多 CNN 系统提供了高达 6.8 倍的性能功耗比。
May, 2018
本文研究了深度神经网络在 FPGA 上的优化设计,提出使用多种精度量化来减少计算和数据传输成本,并成功实现了针对混合精度 CNN 的高效硬件加速器,能够达到高精度和高性能的权衡。
Aug, 2022
通过图形排序的遗传算法,我们开发了一种针对卷积神经网络的层融合技术,减少了边缘平台上的数据传输,从而提高了能效和能延迟乘积(EDP),在类似 SIMBA 移动架构上的 MobileNet-v3 中实现了 1.8 倍的能效提升和 1.9 倍的 EDP 改善。我们的方法对 SIMBA 平台和 Eyeriss 平台的工作负载性能一致改善,平均 EDP 改善 1.4 倍和 1.12 倍。
Nov, 2023
本文介绍了一种修改版 CNN 框架 Caffe,该框架支持 FPGA 实现,并使用 Xilinx SDAccel 环境实现了基于 FPGA 的 Winograd 卷积引擎,能够与其他运行在主机处理器上的层一起运行几个流行的 CNN 模型,取得了 50 GFLOPS 的成果。
Sep, 2016
利用深度学习加速器(DLA)和 Winograd 变换技术,我们在 Intel Arria 10 设备上实现了 1020 图像 / 秒的性能,比 FPGA 上最先进的技术快 10 倍,同时也具有 5.8 倍的更高效率,并且与 nVidia TitanX GPU 上基于 AlexNet 的最佳公开实现比 23 img/s/W 具有竞争力。
Jan, 2017
提出了基于 FPGA 的卷积神经网络加速器范例和相应的自适应设计方法,该加速器范例将 FPGA 资源分割成多个处理器,提高卷积神经网络的计算效率和吞吐量
Jun, 2016
本文介绍了一种名为 unzipFPGA 的 CNN 推断系统,它通过引入权重生成模块实现了芯片上的实时权重生成,为小容量内存限制的层提供了更好的支持;此外,还介绍了一种自动化硬件感知的方法,将权重生成机制与目标 CNN 设备进行搭配,从而实现了更好的准确性和性能平衡;最后,还引入了一种输入选择性处理单元(PE)设计,平衡了子优化映射层的负载。该提议的框架在相同功耗约束下,与高度优化的 GPU 设计相比,实现了平均 2.57 倍的性能效率提升,同时在各种最先进的基于 FPGA 的 CNN 加速器中具有高达 3.94 倍的性能密度。
Jul, 2023
本文开发了第一个加速器架构 FastWave 用于自回归卷积神经网络,实现了针对 WaveNet 的快速推理模型,通过优化和并行设计,FPGA 实现的 WaveNet 相较于 CPU 和 GPU 实现具有更高的生成速度和资源利用率。
Feb, 2020
本文研究了一种从训练好的 TensorFlow 模型到基于 FPGA 的二值化卷积神经网络系统的自动流程,并在 Cyclone-V FPGA 设备上实现了二值化的 YOLOV2,通过在目标检测上的实验,证明了与 CPU 和移动 CPU 平台相比,在 FPGA 上进行二值化幻化的模型大小和推理速度都有显著的性能提升。
Dec, 2017