LUTNet:在FPGA软逻辑中重新思考推理
本文介绍FINN,一种用于构建快速、灵活的FPGA加速器的框架,该框架使用灵活的异构流式架构,并利用一组优化,将二值化神经网络映射到硬件上,从而实现完全连接、卷积和池化层,同时满足用户提供的吞吐量要求。在低于25W的总系统功率下,该平台在MNIST数据集上表现出高达1230万次图像分类每秒,0.31微秒的延迟和95.8%的准确率,在CIFAR-10和SVHN数据集上表现出21906次和283微秒的延迟、80.1%和94.9%的准确率,这是目前这些基准测试中报道的最快的分类率。
Dec, 2016
使用 LUTNet 框架可以在 FPGA 上构建面积高效、节能的神经网络加速器,实现了在几个标准网络模型的推断过程中比二元化神经网络实现更高的面积效率、相当的精度和更高的能量效率。
Oct, 2019
通过设计神经网络拓扑结构来直接映射高效FPGA实现的一种新方法。其中,硬件成本与神经元扇入呈指数级增长,通过使用稀疏和低比特激励量化来限制神经元扇入及减小逻辑深度和低LUT成本,可以实现具有高速低延时和高吞吐量的电路。应用于高能物理和网络入侵检测等任务,具有竞争性的准确性,每秒推断量可达数亿。
Apr, 2020
本研究提出了动态流式传输模型参数和基于库的方法来实现传统CNN架构的可扩展和动态分布式CNN推断,利用部分重构技术提高了资源受限的边缘设备的性能,并在Xilinx PYNQ-Z2板上实现了LeNet-5 CNN模型,具有92%,86%和94%的分类准确率。
Feb, 2022
本文介绍了一种基于OpenCL的卷积神经网络加速器设计,称为FFCNN,它包括数据重用和任务映射技术,这些技术可以在大规模图像分类中提高性能和资源利用率。
Aug, 2022
本文提出了一种基于表查找的CNN乘法运算替换方法,可以显著减少在嵌入式设备上进行推理时的能耗,并且适用于现有CNN操作机制,能够显著提高嵌入式系统中小型模型的资源利用和深度推理的延迟。
May, 2023
使用多元多项式作为基本构建模块,我们提出了一种新的方法,通过软逻辑将多项式计算隐藏在LUTs内部,从而在FPGA部署上训练神经网络,实现相同的准确性,同时显著降低延迟和面积。我们在网络入侵检测、CERN大型强子对撞机的喷气识别和MNIST数据集的手写数字识别三个任务中展示了这种方法的有效性。
Sep, 2023
利用全连接层内的浮点精度作为每个分区内的刚性稀疏性和量化,我们提出了将整个子网络映射到单个查找表(LUT)中的方法,并通过引入跳跃连接来解决梯度消失等挑战,从而显着提高延迟。
Feb, 2024
通过引入PolyLUT-Add技术,结合多个PolyLUT子神经元进行相加以提高准确性,并描述了一个提高可扩展性的新型架构,实验结果表明,在相似准确度的情况下,PolyLUT-Add相比传统方法能够减少1.3-7.7倍的LUT使用量并降低1.2-2.2倍的延迟。
Jun, 2024