FPGA上高吞吐量混合精度CNN加速器设计
该研究提出了自动化生成高效CNN加速器的框架Tomato,并展示了在FPGA上运行的最先进的多精度多算术网络,不仅有效地减少了模型大小和计算复杂性,还可以将完整的ImageNet网络打包到单个FPGA上,并且与同类基于FPGA的竞争对手相比,延迟和吞吐量至少提高了2-4倍。
Oct, 2019
本文提出了一种基于深度强化学习的硬件感知自动量化框架 (HAQ),旨在为不同的神经网络体系结构和硬件体系结构确定最佳的量化策略,以提高计算效率并在保持准确性的前提下减少延迟和能耗。 在硬件仿真器的帮助下,该框架的有效性已得到证明。
Aug, 2020
本文提出了一种针对卷积神经网络的硬件优化方案,该方案采用两种针对不同层次的特定优化法,实现不同的计算方式以提高性能,并在最大程度上减少了占用芯片的内存及对外部内存访问的需求,从而缓解了CPU的压力并大幅提升了处理速度。
Sep, 2020
本文介绍了混合精度框架优化技巧的现有文献,并对常用的量化技巧进行了总结,其中部分框架运用的优化技巧为强化学习和确定性舍入,文章讨论了每种框架的优点和缺陷,并且为未来的混合精度框架提供了指导。
Aug, 2022
本文提出了一种基于混合张量分解方法 (Mixed-TD) 将卷积神经网络 (CNN) 映射到 FPGA 上的框架,该方法采用了层特定的奇异值分解 (SVD) 和标准分解 (CPD),每个 DSP 可以实现与最先进的 CNN 的1.73x 至 10.29x 的吞吐量。
Jun, 2023
该论文提出了一种混合精度搜索方法,该方法通过硬件无关的可微分搜索算法和硬件感知优化算法来寻找特定硬件目标上的优化后的混合精度配置,以减少模型大小、延迟并保持统计准确性,该方法在MobileNetV1和MobileNetV2上进行了评估,在具有不同硬件特性的多核RISC-V微控制器平台上展示了与8位模型相比高达28.6%的端到端延迟降低,在没有对子字节算术支持的系统上也能实现加速,同时在代表延迟的减少二进制运算次数上,我们的方法也表现出优越性。
Jul, 2023
最近,量化和混合精度技术的最新进展为改善神经网络的运行时间和能量效率提供了极大的希望。通过本研究,我们进一步证明了神经网络中的个别参数或激活可以采用1到4位不同精度,从而可以获得与全精度对应物相当甚至超过的准确性。然而,这类网络的部署面临着许多挑战,源于需要管理和控制与每个数据片的这些非常精细的混合精度相关的计算、通信和存储需求。现有的有效的硬件和系统级支持对于这些独特且具有挑战性的需求缺乏。我们的研究引入了首个针对这些网络的新颖的硬件-软件协同设计方法,该方法使得硬件设计、训练和推理之间具备连续的反馈循环,以促进系统设计探索。我们通过设计新的可配置的面向这些网络的CPU SIMD架构,并将该架构与新的系统感知训练和推理技术紧密结合,来说明这种协同设计方法的概念验证。我们使用该框架进行系统化的设计空间探索,以分析各种权衡。在该设计中,混合精度网络的优化权衡对应于一种支持1、2和4位定点运算的架构,该架构具有四种可配置的精度模式,当与系统感知训练和推理优化相结合时,该网络的准确性与全精度准确性非常接近,同时将神经网络的压缩和运行时效率大大提升10-20倍,相比全精度网络。
Nov, 2023
卷积神经网络(CNN)的能效和内存占用取决于权重量化策略和映射,通过启用丰富的混合量化方案,我们可以找到更有效利用硬件资源的映射,从而在精度、能耗和内存要求之间取得更好的平衡。通过扩展Timeloop工具,提出了一种高效的多目标优化算法,实证了该方法在两种CNN和两种加速器上的有效性,并证明了相对于未经精心优化的CNN实现,可以实现高达37%的能量节省,而无需降低精度。
Apr, 2024
通过轻量级的基于梯度的搜索方法和硬件感知的方式,结合稀疏化和混合精度量化的优化技术,在减小延迟和内存占用方面获得Pareto最优的准确性与成本(即延迟或内存)之间的深度神经网络。
Jul, 2024
本研究针对混合精度神经网络在运行时缺乏灵活支持的问题,提出了一种名为BF-IMNA的比特流动内存计算加速器,能够在不进行硬件重新配置的情况下支持静态和动态混合精度。实验结果表明,在不同的技术、混合精度配置和供电电压下,BF-IMNA相比于当前的主流加速器在能效和吞吐量上有显著提升,能效提高20%和吞吐量提高2%。
Nov, 2024