深林模型的高效 FPGA 加速器
DeepFire2 是一种新型的硬件架构,能够在多个逻辑区域上高效地映射大型网络层,大大提高了吞吐量和能源利用率,同时避免了查找表对 SNN 逻辑资源的限制,能够部署大型的 ImageNet 模型,保持每秒超过 1500 帧的吞吐量。
May, 2023
该论文提出了一种名为 Deep Embedding Forest 的模型,采用嵌入层和基于树 / 森林的层,以实现快速服务支持,同时借鉴 Deep Neural Networks 的高维特征映射能力,通过仅使用传统硬件,该模型在性能上与 DNN 模型相当。
Mar, 2017
本文提出了一种可扩展的加速器体系结构 DLAU,通过在 FPGA 上实现,使用三个流水线处理单元来提高吞吐量并利用瓦片技术探索深度学习应用程序的局部性来提高性能和维护低功耗,实验结果表明 DLAU 加速器与 Intel Core2 处理器相比,速度提高了 36.1 倍,功耗为 234mW。
May, 2016
利用深度学习加速器(DLA)和 Winograd 变换技术,我们在 Intel Arria 10 设备上实现了 1020 图像 / 秒的性能,比 FPGA 上最先进的技术快 10 倍,同时也具有 5.8 倍的更高效率,并且与 nVidia TitanX GPU 上基于 AlexNet 的最佳公开实现比 23 img/s/W 具有竞争力。
Jan, 2017
本文旨在实现深度神经网络硬件实现的超高能效和性能,提出一种面向不同类型、大小和应用场景的 DNN 算法 - 硬件协同优化框架,并在硬件部分采用高效的 FPGA 实现,实验表明与 IBM TrueNorth 处理器和参考的 FPGA 实现相比,该框架至少实现了 152 倍的加速和 71 倍的能效增益。
Feb, 2018
本研究基于原始 deep forest 模型,引入 MART 基础学习者,成本方法,MART 特征选择和不同评价指标等模型改进,开发出可用于极大规模任务的分布式 deep forest 模型,检测到超过 1 亿个训练样本的现金提款欺诈,实验结果表明该模型具有最佳性能,可以阻止每天大量的欺诈交易和显著降低经济损失。
May, 2018
基于低功耗的内嵌 FPGA 提出的分布式系统,可用于边缘计算应用,通过分布式调度优化深度学习负载以获得最佳性能,同时可以在多种配置下评估和管理神经网络工作负载。
May, 2023
本研究开发了一种基于 FPGA 的定点深度神经网络系统,实现了手写数字识别和音素识别任务,相较于基于 GPU 的系统有更高的效率和更低的功耗。
Feb, 2016
本研究旨在提出一种编译器,通过 Torch7 模型描述文件生成机器级指令,并实现了一种与卷积神经网络相关的定制硬件加速器 Snowflake,优化了模型结构解析、CNN 负载分解、内存带宽优化和平衡内存访问等方面,以达到生成的指令的性能与手动优化代码相当,并有效地执行 AlexNet 和 ResNet18 推理任务。
Aug, 2017
研究提出一种工具流程,将 3D CNN 模型优化到 FPGA 设备上,采用同步数据流图来模拟设计并引入转换来拓展和探索设计空间,以实现高吞吐量设计。在多个 FPGA 设备上评估了各种 3D CNN 模型,证明了与早期手动调整和特定模型的设计相比,该工具流程具有竞争性的性能。
May, 2023