DSLOT-NN:数字串行从左到右神经网络加速器
该论文介绍了一种用于实现基于卷积神经网络的计算机视觉应用的高效领域特定架构(DSA),并利用DSA设计了一个能够高效地支持移动设备和嵌入式系统的加速器,可用于实时图像分类和场景识别等实际应用。
Apr, 2018
该论文提出一种基于posit数值格式的DNN体系结构及可调精度FPGA软核,通过实验结果表明,该体系结构在8位或以下的posit数值格式下,性能和精度均优于传统的固定位数和浮点数位数格式,提示该方法能够在减小计算资源的同时提高DNN的性能。
Dec, 2018
该研究提出了自动化生成高效CNN加速器的框架Tomato,并展示了在FPGA上运行的最先进的多精度多算术网络,不仅有效地减少了模型大小和计算复杂性,还可以将完整的ImageNet网络打包到单个FPGA上,并且与同类基于FPGA的竞争对手相比,延迟和吞吐量至少提高了2-4倍。
Oct, 2019
本文提出了 DNN-Chip Predictor,一种分析性能预测器,能够在实际实现之前准确预测 DNN加速器的能量、吞吐量和延迟,从而加快和提高 DNN 加速器的开发效率。该预测器具有分析性能公式,支持不同的算法对硬件映射方案(即数据流)和硬件体系结构。实验结果表明,使用不同的 DNN 模型、硬件体系结构和数据流时,预测性能与 FPGA/ASIC 实现的芯片测量结果的差异不超过 17.66%。
Feb, 2020
本文介绍了一种FPGA加速神经网络评估的异构计算系统,通过利用DSP和LUT的不同资源优势进行计算。作者运用强化学习算法对系统进行优化,使得该系统在减少延迟的同时提高了精度表现。
Dec, 2021
本论文介绍了一种新的针对深度神经网络(DNN)硬件加速器的优化框架,它能够快速开发定制化和自动化的设计流程,同时具有高度可定制性和灵活性,通过引入新的优化和转换任务,不需要人类专业知识,可以在保持准确性的同时大幅度降低DSP和LUT使用,相较于现有技术,具有更高的精度和更少的DSP资源使用率。
Jun, 2023
本文介绍了一种利用余数系统(RNS)来组成高精度操作的方法,从而在安宁卡尔作为高精度数模转换器(A/D转换)的系统中实现了高准确性和良好的能量效率,并且使用RNS的误差容错能力可以实现具有容错性的模拟加速器,并且相较于常规定点方法,RNS可以降低数据转换器的能耗数个数量级。
Jun, 2023
通过使用残余数系统(RNS),我们研究表明,利用RNS基于方法的模拟加速器在只使用6位精度的数据转换器的情况下,可以实现优于FP32精度的99%以上的先进DNN推断,而传统的模拟核在相同的DNN中需要超过8位的精度才能达到同样的准确性。此外,我们还使用RNS扩展了该方法到DNN训练中,可以使用7位整数运算高效地训练DNN,并达到与FP32精度相媲美的准确性。最后,我们提出了一种容错数据流,利用冗余RNS纠错码保护计算,以应对模拟加速器中的噪声和误差。
Sep, 2023
通过基于编码的新型数字MAC设计,用简单逻辑门替换了乘法器,用宽位表示投射结果,通过逐位加权累积实现加法,从而减小电路面积和提高功耗效率,测试结果表明该设计能够降低电路面积高达79.63%,减少DNN执行功耗最多70.18%,同时保持良好的神经网络准确性。
Feb, 2024
本研究针对在资源受限的边缘设备上实现深度神经网络(DNN)面临的挑战,提出了一种自动生成快速性能模型的方法,以准确估算映射到加速器架构的DNN延迟。我们的关键发现是,该方法结合DNN硬件依赖图分析,显著加速了性能评估过程,相较于仿真结果,有效降低了平均绝对百分比误差(MAPE)。
Sep, 2024