嵌入式FPGA卷积神经网络加速器的算法硬件协同设计
本文介绍FINN,一种用于构建快速、灵活的FPGA加速器的框架,该框架使用灵活的异构流式架构,并利用一组优化,将二值化神经网络映射到硬件上,从而实现完全连接、卷积和池化层,同时满足用户提供的吞吐量要求。在低于25W的总系统功率下,该平台在MNIST数据集上表现出高达1230万次图像分类每秒,0.31微秒的延迟和95.8%的准确率,在CIFAR-10和SVHN数据集上表现出21906次和283微秒的延迟、80.1%和94.9%的准确率,这是目前这些基准测试中报道的最快的分类率。
Dec, 2016
利用深度学习加速器(DLA)和 Winograd 变换技术,我们在 Intel Arria 10 设备上实现了1020图像/秒的性能,比 FPGA 上最先进的技术快10倍,同时也具有5.8倍的更高效率,并且与 nVidia TitanX GPU 上基于 AlexNet 的最佳公开实现比 23 img/s/W 具有竞争力。
Jan, 2017
研究了一种灵活有效的卷积神经网络加速器结构NullHop,采用神经元激活的稀疏特性加速计算并降低内存需求,可用于低功耗和低延迟应用,实现了98%的MAC单元利用率,达到了超过3TOp/s/W的功率效率,并成功将其FPGA实现与神经形态事件相机接口进行了实时交互演示。
Jun, 2017
本文提出了一个使用Synchronous Dataflow(SDF)模型的端到端框架fpgaConvNet,该框架可用于将卷积神经网络(ConvNets)映射到FPGAs上,实现了对性能度量的有效优化,并在嵌入式环境中将性能提高了最高6.65x。
Nov, 2017
通过使用梯度的基础方法优化ConvNet结构,避免像以前的方法一样枚举并分别训练个别结构,我们提出了一个可微分的神经结构搜索(DNAS)框架。FBNets是通过DNAS发现的模型族,其在设计和生成自动模型方面均超过手动设计的最新模型,并在移动设备上获得更高的准确性和更低的延迟。
Dec, 2018
提出了一种新的框架,用于在限制条件下寻找最优的量化神经架构并实现在给定的硬件规格上,该框架使用FPGAs来实现和测试设计并在CIFAR10任务中提高了18%至68%的准确性。
Oct, 2019
本研究系统研究了协同设计神经网络架构和硬件加速器的重要性和策略,发现不同的使用场景会导致非常不同的搜索结果,研究表明联合搜索方法在所有延迟目标上始终优于以前的面向平台的神经体系结构搜索、手动设计的模型和最先进的EfficientNet,可将边缘加速器的能源消耗降低高达2倍。
Feb, 2021
本文介绍了一种基于硬件加速的卷积操作FPGA架构,旨在实现单层卷积的处理,以推出一种边缘AI解决方案IP核,实验结果表明它的峰值运算性能可达4.48 GOPS。
Jun, 2022
本文介绍了一种基于OpenCL的卷积神经网络加速器设计,称为FFCNN,它包括数据重用和任务映射技术,这些技术可以在大规模图像分类中提高性能和资源利用率。
Aug, 2022
本研究提出了一种基于FPGA的加速器,用于提高Vision Transformers的硬件效率,其中采用了可重构的架构以支持各种操作类型,并通过时分复用和流水线数据流来降低片外数据访问成本,实验证明其在Xilinx ZCU102 FPGA上能够显著优于之前的工作,达到了高达780.2 GOPS的吞吐量和105.1 GOPS/W的能效比。
Mar, 2024