HiKonv:通过新的按位管理和计算最大化量化卷积的吞吐量
本文介绍FINN,一种用于构建快速、灵活的FPGA加速器的框架,该框架使用灵活的异构流式架构,并利用一组优化,将二值化神经网络映射到硬件上,从而实现完全连接、卷积和池化层,同时满足用户提供的吞吐量要求。在低于25W的总系统功率下,该平台在MNIST数据集上表现出高达1230万次图像分类每秒,0.31微秒的延迟和95.8%的准确率,在CIFAR-10和SVHN数据集上表现出21906次和283微秒的延迟、80.1%和94.9%的准确率,这是目前这些基准测试中报道的最快的分类率。
Dec, 2016
本文研究了一种从训练好的TensorFlow模型到基于FPGA的二值化卷积神经网络系统的自动流程,并在Cyclone-V FPGA设备上实现了二值化的YOLOV2,通过在目标检测上的实验,证明了与CPU和移动CPU平台相比,在FPGA上进行二值化幻化的模型大小和推理速度都有显著的性能提升。
Dec, 2017
本文综述了现有的CNN-to-FPGA工具流,包括应用支持、架构选择、设计空间探索方法和性能等关键特性的比较研究,提出了最新CNN算法研究引入的主要挑战和目标,并提出了一种统一的评估方法,旨在全面、完整和深入地评估CNN-to-FPGA工具流。
Mar, 2018
本文研究了在FPGA-based CNNs中采用一种称为on-the-fly的方法来预处理卷积核的设计,提出了解决方案并开发了一个名为unzipFPGA的框架,通过量化评估得出结论:在容约束带宽和优化现状和pruned CNN的引擎下,unzipFPGA的平均加速比为2.14倍,性能密度高达现有技术的3.69倍。
Mar, 2021
本文研究了深度神经网络在FPGA上的优化设计,提出使用多种精度量化来减少计算和数据传输成本,并成功实现了针对混合精度CNN的高效硬件加速器,能够达到高精度和高性能的权衡。
Aug, 2022
本文提出了算法强度平衡卷积(ABConv)以解决使用小空间大小进行卷积时整体强度受到限制的问题,并在不牺牲准确性的前提下显著降低了延迟。测试了其在各种配置中的延迟和硬件性能,并将其用于CIFAR100的图像分类。
Apr, 2023
本文介绍了一种名为unzipFPGA的CNN推断系统,它通过引入权重生成模块实现了芯片上的实时权重生成,为小容量内存限制的层提供了更好的支持;此外,还介绍了一种自动化硬件感知的方法,将权重生成机制与目标CNN设备进行搭配,从而实现了更好的准确性和性能平衡;最后,还引入了一种输入选择性处理单元(PE)设计,平衡了子优化映射层的负载。该提议的框架在相同功耗约束下,与高度优化的GPU设计相比,实现了平均2.57倍的性能效率提升,同时在各种最先进的基于FPGA的CNN加速器中具有高达3.94倍的性能密度。
Jul, 2023
卷积神经网络(CNN)的能效和内存占用取决于权重量化策略和映射,通过启用丰富的混合量化方案,我们可以找到更有效利用硬件资源的映射,从而在精度、能耗和内存要求之间取得更好的平衡。通过扩展Timeloop工具,提出了一种高效的多目标优化算法,实证了该方法在两种CNN和两种加速器上的有效性,并证明了相对于未经精心优化的CNN实现,可以实现高达37%的能量节省,而无需降低精度。
Apr, 2024
Vision Transformers(ViTs)的模型量化和硬件加速方面进行了综合调查,探讨了ViTs的独特架构特性、运行时特性、模型量化的基本原则,以及用于ViTs的最新量化技术的比较分析。此外,还探索了量化ViTs的硬件加速,强调了硬件友好算法设计的重要性,并讨论了未来的挑战和研究方向。
May, 2024
本研究解决了在FPGA上实现高性能卷积神经网络推理所需的高带宽内存问题。通过将高带宽内存与芯片内存结合,提出了一种新的层级流水数据流加速器设计,提升了大规模CNN的计算效率。实验表明,与现有方案相比,该方法在ResNet-18、ResNet-50和VGG-16上分别获得至少19.4倍、5.1倍和10.5倍的速度提升。
Aug, 2024