硬件感知的CNN加速器剪枝方法
在嵌入式环境中,卷积神经网络因其过多的权重存储和算术运算而未能得到广泛应用,为解决这一问题,本文提出了一种新的修剪方案,以反映加速器架构,通过此方案,性能得到了大幅提升,并成功应用于AlexNet,VGG16,ResNet,MobileNet等多种网络模型。
Apr, 2018
本研究旨在通过对卷积神经网络的通道剪枝方法进行优化,以提高在移动和嵌入式设备上的计算效率,虽然有些情况下通道剪枝算法可能会损害计算性能,但是我们还是发现采用基于性能的剪枝会达到预期的效果。
Feb, 2020
通过利用输入令牌稀疏性并提出计算感知的软剪枝框架,可以大幅减少Vision Transformer计算成本,并满足移动设备和FPGA的资源规格要求,甚至在移动平台上实现DeiT-T的实时执行。
Dec, 2021
本文提出了一种新型的卷积神经网络压缩算法,通过利用网络层级复杂性,设计了三种剪枝模式:参数感知型、浮点运算量感知型和内存感知型,以在低功耗设备上实现高效率的模型压缩和加速,并在智能农业,智能医疗和智能工厂等应用中表现出了极高的性能表现。
Aug, 2022
通过使用二次幂量化和基于位移乘累加运算代替传统的乘累加运算,以及基于对数量化的新型剪枝方法,本文在基于 Zynq UltraScale + MPSoC ZCU104 SoC FPGA 的硬件神经网络加速器中实现了 Power-of-Two( PoT ) 权重,实现了至少 $1.4x$ 的能效提升。
Sep, 2022
本文提出了一种硬件高效的图像自适应标记修剪框架HeatViT,以在嵌入式FPGA上实现高效而准确的ViT加速,通过显著重复利用现有硬件组件来实现标记选择器,使用固定点量化和多阶段训练策略来优化插入标记选择器的变压器块,使模型在硬件上不仅提高了准确性和推理延迟,而且还可在与现有计算成本相似的情况下获得更高的准确性或在与相似模型准确性相似的情况下实现更高的计算量减少。
Nov, 2022
本文介绍了一种名为unzipFPGA的CNN推断系统,它通过引入权重生成模块实现了芯片上的实时权重生成,为小容量内存限制的层提供了更好的支持;此外,还介绍了一种自动化硬件感知的方法,将权重生成机制与目标CNN设备进行搭配,从而实现了更好的准确性和性能平衡;最后,还引入了一种输入选择性处理单元(PE)设计,平衡了子优化映射层的负载。该提议的框架在相同功耗约束下,与高度优化的GPU设计相比,实现了平均2.57倍的性能效率提升,同时在各种最先进的基于FPGA的CNN加速器中具有高达3.94倍的性能密度。
Jul, 2023
提出了一种综合算法-硬件设计,通过同时进行静态权重剪枝和动态令牌剪枝,加速在 FPGA 上的 ViT(Vision Transformers)模型,以减少计算复杂性和模型大小。
Mar, 2024
本研究解决了在边缘设备上部署卷积神经网络(CNN)的复杂性和劳动强度问题。通过开发一个端到端的工作流程,利用Gemmini加速器和开源软件优化部署过程,研究显示在Xilinx ZCU102 FPGA上部署YOLOv7模型可实现实时性能和36.5 GOP/s/W的能效表现,显著优于其他嵌入式硬件设备。此方案在交通监控场景中的应用展示了其广泛的潜在影响。
Aug, 2024