Mixed-TD:具有层特定张量分解的高效神经网络加速器
本文介绍FINN,一种用于构建快速、灵活的FPGA加速器的框架,该框架使用灵活的异构流式架构,并利用一组优化,将二值化神经网络映射到硬件上,从而实现完全连接、卷积和池化层,同时满足用户提供的吞吐量要求。在低于25W的总系统功率下,该平台在MNIST数据集上表现出高达1230万次图像分类每秒,0.31微秒的延迟和95.8%的准确率,在CIFAR-10和SVHN数据集上表现出21906次和283微秒的延迟、80.1%和94.9%的准确率,这是目前这些基准测试中报道的最快的分类率。
Dec, 2016
研究了一种灵活有效的卷积神经网络加速器结构NullHop,采用神经元激活的稀疏特性加速计算并降低内存需求,可用于低功耗和低延迟应用,实现了98%的MAC单元利用率,达到了超过3TOp/s/W的功率效率,并成功将其FPGA实现与神经形态事件相机接口进行了实时交互演示。
Jun, 2017
本文使用整数计算方法,利用动态定点方案为常规神经网络操作提供合适的实现,研究在常规通用硬件上进行 ImageNet-1K 数据集上的视觉理解神经网络训练,并且实现的神经网络在相同迭代次数下,不增加超参数的情况下超过了SOTA的精度,并提高了1.8倍的训练吞吐量,这是使用SOTA CNN对ImageNet-1K数据集进行INT16训练的首次最高准确性结果。
Feb, 2018
本文提出了一种针对卷积神经网络的硬件优化方案,该方案采用两种针对不同层次的特定优化法,实现不同的计算方式以提高性能,并在最大程度上减少了占用芯片的内存及对外部内存访问的需求,从而缓解了CPU的压力并大幅提升了处理速度。
Sep, 2020
本文研究了深度神经网络在FPGA上的优化设计,提出使用多种精度量化来减少计算和数据传输成本,并成功实现了针对混合精度CNN的高效硬件加速器,能够达到高精度和高性能的权衡。
Aug, 2022
本论文介绍了一种新的针对深度神经网络(DNN)硬件加速器的优化框架,它能够快速开发定制化和自动化的设计流程,同时具有高度可定制性和灵活性,通过引入新的优化和转换任务,不需要人类专业知识,可以在保持准确性的同时大幅度降低DSP和LUT使用,相较于现有技术,具有更高的精度和更少的DSP资源使用率。
Jun, 2023
利用全连接层内的浮点精度作为每个分区内的刚性稀疏性和量化,我们提出了将整个子网络映射到单个查找表(LUT)中的方法,并通过引入跳跃连接来解决梯度消失等挑战,从而显着提高延迟。
Feb, 2024
通过张量近似和结构分解的方法,该研究提出了一种软件框架(TASDER),以更好地支持硬件加速稀疏深度神经网络,并在能耗延迟乘积上平均提升了83%至74%。
Mar, 2024
卷积神经网络(CNN)的能效和内存占用取决于权重量化策略和映射,通过启用丰富的混合量化方案,我们可以找到更有效利用硬件资源的映射,从而在精度、能耗和内存要求之间取得更好的平衡。通过扩展Timeloop工具,提出了一种高效的多目标优化算法,实证了该方法在两种CNN和两种加速器上的有效性,并证明了相对于未经精心优化的CNN实现,可以实现高达37%的能量节省,而无需降低精度。
Apr, 2024
本研究解决了在FPGA上实现高性能卷积神经网络推理所需的高带宽内存问题。通过将高带宽内存与芯片内存结合,提出了一种新的层级流水数据流加速器设计,提升了大规模CNN的计算效率。实验表明,与现有方案相比,该方法在ResNet-18、ResNet-50和VGG-16上分别获得至少19.4倍、5.1倍和10.5倍的速度提升。
Aug, 2024