FPGA资源感知的实时神经网络结构剪枝
本文介绍FINN,一种用于构建快速、灵活的FPGA加速器的框架,该框架使用灵活的异构流式架构,并利用一组优化,将二值化神经网络映射到硬件上,从而实现完全连接、卷积和池化层,同时满足用户提供的吞吐量要求。在低于25W的总系统功率下,该平台在MNIST数据集上表现出高达1230万次图像分类每秒,0.31微秒的延迟和95.8%的准确率,在CIFAR-10和SVHN数据集上表现出21906次和283微秒的延迟、80.1%和94.9%的准确率,这是目前这些基准测试中报道的最快的分类率。
Dec, 2016
在嵌入式环境中,卷积神经网络因其过多的权重存储和算术运算而未能得到广泛应用,为解决这一问题,本文提出了一种新的修剪方案,以反映加速器架构,通过此方案,性能得到了大幅提升,并成功应用于AlexNet,VGG16,ResNet,MobileNet等多种网络模型。
Apr, 2018
该研究提出了一种新的硬件软件框架 LUTNet,可以利用 FPGA 中的 LUT 实现神经网络加速器的构建,可实现较大的修剪和面积节省。与其他模型比较,该框架达到了两倍的面积效率。
Apr, 2019
使用 LUTNet 框架可以在 FPGA 上构建面积高效、节能的神经网络加速器,实现了在几个标准网络模型的推断过程中比二元化神经网络实现更高的面积效率、相当的精度和更高的能量效率。
Oct, 2019
本研究旨在通过对卷积神经网络的通道剪枝方法进行优化,以提高在移动和嵌入式设备上的计算效率,虽然有些情况下通道剪枝算法可能会损害计算性能,但是我们还是发现采用基于性能的剪枝会达到预期的效果。
Feb, 2020
通过联合采用修剪和量化,利用强化学习探索与低能耗相关的设计空间及其精度损失,我们提出了一种自动压缩深度神经网络的硬件感知框架,能够在嵌入式深度神经网络加速器上实现能耗最小化。实验结果表明,相比现有方法,我们的框架平均能耗降低39%,平均精度损失为1.7%。
Dec, 2023
提出了一种综合算法-硬件设计,通过同时进行静态权重剪枝和动态令牌剪枝,加速在 FPGA 上的 ViT(Vision Transformers)模型,以减少计算复杂性和模型大小。
Mar, 2024
基于模型压缩和硬件加速,本研究通过剪枝方法对高度互联的卷积层的连接汇如YOLOv7中进行处理,并通过迭代敏感度分析、剪枝和模型微调,显著减少了模型大小,同时保持了可比较的模型准确性。最终将剪枝模型部署到FPGA和NVIDIA Jetson Xavier AGX上,与未剪枝的模型相比,在卷积层中实现了2倍的加速,并在FPGA上达到了每秒14帧的实时能力。
May, 2024
通过轻量级的基于梯度的搜索方法和硬件感知的方式,结合稀疏化和混合精度量化的优化技术,在减小延迟和内存占用方面获得Pareto最优的准确性与成本(即延迟或内存)之间的深度神经网络。
Jul, 2024
本研究解决了在资源受限设备上运行CNN时,能耗与推断时间之间的矛盾。提出了一种适用于FPGA设备的通用硬件架构,利用专门设计的剪枝技术显著提高推断速度。实验表明,该硬件感知的剪枝算法相比于标准剪枝算法,推断时间提高了45%。
Aug, 2024