fpgaConvNet:在嵌入式FPGA上映射多样化卷积神经网络的工具流
本文介绍了一种修改版CNN框架Caffe,该框架支持FPGA实现,并使用Xilinx SDAccel环境实现了基于FPGA的Winograd卷积引擎,能够与其他运行在主机处理器上的层一起运行几个流行的CNN模型,取得了50 GFLOPS的成果。
Sep, 2016
本文介绍FINN,一种用于构建快速、灵活的FPGA加速器的框架,该框架使用灵活的异构流式架构,并利用一组优化,将二值化神经网络映射到硬件上,从而实现完全连接、卷积和池化层,同时满足用户提供的吞吐量要求。在低于25W的总系统功率下,该平台在MNIST数据集上表现出高达1230万次图像分类每秒,0.31微秒的延迟和95.8%的准确率,在CIFAR-10和SVHN数据集上表现出21906次和283微秒的延迟、80.1%和94.9%的准确率,这是目前这些基准测试中报道的最快的分类率。
Dec, 2016
本文综述了现有的CNN-to-FPGA工具流,包括应用支持、架构选择、设计空间探索方法和性能等关键特性的比较研究,提出了最新CNN算法研究引入的主要挑战和目标,并提出了一种统一的评估方法,旨在全面、完整和深入地评估CNN-to-FPGA工具流。
Mar, 2018
该论文提出了一种自动化设计流程f-CNN$^{ ext{x}}$,用于在FPGA上映射多个CNN,包括一个新的多CNN硬件架构和自动化设计空间探索方法,以考虑每个模型的性能要求来分配计算资源和生成可合成加速器。此外,f-CNN$^{ ext{x}}$采用一种新的调度算法,可以缓解CNN之间的内存带宽争用限制,并维持架构的高利用率。实验评估表明,f-CNN$^{ ext{x}}$的设计比不考虑争用的FPGA映射效果提高了多达50%,并为多CNN系统提供了高达6.8倍的性能功耗比。
May, 2018
本文提出了一种算法-硬件协同设计的方法,开发了一种名为Synetgy的ConvNet加速器和一种新颖的ConvNet模型DiracDeltaNet,可以高效地在FPGA上运行,得到了更高的准确率和更快的推理速度。
Nov, 2018
通过使用梯度的基础方法优化ConvNet结构,避免像以前的方法一样枚举并分别训练个别结构,我们提出了一个可微分的神经结构搜索(DNAS)框架。FBNets是通过DNAS发现的模型族,其在设计和生成自动模型方面均超过手动设计的最新模型,并在移动设备上获得更高的准确性和更低的延迟。
Dec, 2018
本文介绍了一种基于硬件加速的卷积操作FPGA架构,旨在实现单层卷积的处理,以推出一种边缘AI解决方案IP核,实验结果表明它的峰值运算性能可达4.48 GOPS。
Jun, 2022
研究提出一种工具流程,将 3D CNN 模型优化到 FPGA 设备上,采用同步数据流图来模拟设计并引入转换来拓展和探索设计空间,以实现高吞吐量设计。在多个 FPGA 设备上评估了各种 3D CNN 模型,证明了与早期手动调整和特定模型的设计相比,该工具流程具有竞争性的性能。
May, 2023
本研究解决了现有图卷积神经网络在FPGA实现中的可扩展性问题,通过优化硬件模块和提出双步卷积方法,显著降低了LUT的使用量。该方法提高了GCNN的可扩展性,使得可以应用于更多层次、更大规模的图和更动态的场景。
Nov, 2024