基于FPGA的深度学习:过去、现在和未来
本文介绍了一种修改版CNN框架Caffe,该框架支持FPGA实现,并使用Xilinx SDAccel环境实现了基于FPGA的Winograd卷积引擎,能够与其他运行在主机处理器上的层一起运行几个流行的CNN模型,取得了50 GFLOPS的成果。
Sep, 2016
利用深度学习加速器(DLA)和 Winograd 变换技术,我们在 Intel Arria 10 设备上实现了1020图像/秒的性能,比 FPGA 上最先进的技术快10倍,同时也具有5.8倍的更高效率,并且与 nVidia TitanX GPU 上基于 AlexNet 的最佳公开实现比 23 img/s/W 具有竞争力。
Jan, 2017
本文旨在实现深度神经网络硬件实现的超高能效和性能,提出一种面向不同类型、大小和应用场景的DNN算法-硬件协同优化框架,并在硬件部分采用高效的FPGA实现,实验表明与IBM TrueNorth处理器和参考的FPGA实现相比,该框架至少实现了152倍的加速和71倍的能效增益。
Feb, 2018
本文综述了现有的CNN-to-FPGA工具流,包括应用支持、架构选择、设计空间探索方法和性能等关键特性的比较研究,提出了最新CNN算法研究引入的主要挑战和目标,并提出了一种统一的评估方法,旨在全面、完整和深入地评估CNN-to-FPGA工具流。
Mar, 2018
本研究通过探索多种快速卷积算法,包括Winograd和FFT,并发现了一种将它们应用于不同类型卷积的最佳策略;实现在基于高级综合的可配置IP人脸识别加速系统中使用FaceNet,并利用并行化的优化方案在新型CNN体系结构上,实现比高端NVIDIA GPU快3.75倍的延迟加速,并显著超过先前的FPGA结果。
Mar, 2018
本文提出了TuRF框架,通过迁移学习将预训练模型适应于特定领域,替换普通卷积层并应用层融合来提高硬件设计性能,从而在FPGA上有效部署特定领域的应用,评估结果表明,与原始模型以及其他先前方法相比,TuRF可以更好地实现VGG-16模型的性能,同时更准确和易于处理。
Sep, 2018
本研究系统研究了协同设计神经网络架构和硬件加速器的重要性和策略,发现不同的使用场景会导致非常不同的搜索结果,研究表明联合搜索方法在所有延迟目标上始终优于以前的面向平台的神经体系结构搜索、手动设计的模型和最先进的EfficientNet,可将边缘加速器的能源消耗降低高达2倍。
Feb, 2021
本文研究了在FPGA-based CNNs中采用一种称为on-the-fly的方法来预处理卷积核的设计,提出了解决方案并开发了一个名为unzipFPGA的框架,通过量化评估得出结论:在容约束带宽和优化现状和pruned CNN的引擎下,unzipFPGA的平均加速比为2.14倍,性能密度高达现有技术的3.69倍。
Mar, 2021
本文介绍了一种基于硬件加速的卷积操作FPGA架构,旨在实现单层卷积的处理,以推出一种边缘AI解决方案IP核,实验结果表明它的峰值运算性能可达4.48 GOPS。
Jun, 2022
本文介绍了一种名为unzipFPGA的CNN推断系统,它通过引入权重生成模块实现了芯片上的实时权重生成,为小容量内存限制的层提供了更好的支持;此外,还介绍了一种自动化硬件感知的方法,将权重生成机制与目标CNN设备进行搭配,从而实现了更好的准确性和性能平衡;最后,还引入了一种输入选择性处理单元(PE)设计,平衡了子优化映射层的负载。该提议的框架在相同功耗约束下,与高度优化的GPU设计相比,实现了平均2.57倍的性能效率提升,同时在各种最先进的基于FPGA的CNN加速器中具有高达3.94倍的性能密度。
Jul, 2023