深林模型的高效 FPGA 加速器

Nov, 2022

An Efficient FPGA-based Accelerator for Deep Forest

Mingyu Zhu, Jiapeng Luo, Wendong Mao, Zhongfeng Wang

TL;DR本文提出了一种有效的硬件加速器，第一次在 FPGA 上实现深度森林模型，通过精细的节点计算单元、高效的架构和自适应数据流以及优化的存储方案，显著缩短计算时间，提高硬件利用率和功耗效率。

Abstract

deep forest is a prominent machine learning algorithm known for its high accuracy in forecasting. Compared with deep neural networks, deep forest

deep forest machine learning algorithm hardware accelerator fpga speedup

发现论文，激发创造

DeepFire2：一种基于 FPGAs 的卷积脉冲神经网络加速器

DeepFire2 是一种新型的硬件架构，能够在多个逻辑区域上高效地映射大型网络层，大大提高了吞吐量和能源利用率，同时避免了查找表对 SNN 逻辑资源的限制，能够部署大型的 ImageNet 模型，保持每秒超过 1500 帧的吞吐量。

May, 2023

深度嵌入森林：基于深度嵌入特征的森林式服务

该论文提出了一种名为 Deep Embedding Forest 的模型，采用嵌入层和基于树 / 森林的层，以实现快速服务支持，同时借鉴 Deep Neural Networks 的高维特征映射能力，通过仅使用传统硬件，该模型在性能上与 DNN 模型相当。

Mar, 2017

DLAU：一种在 FPGA 上可扩展的深度学习加速器单元

本文提出了一种可扩展的加速器体系结构 DLAU，通过在 FPGA 上实现，使用三个流水线处理单元来提高吞吐量并利用瓦片技术探索深度学习应用程序的局部性来提高性能和维护低功耗，实验结果表明 DLAU 加速器与 Intel Core2 处理器相比，速度提高了 36.1 倍，功耗为 234mW。

May, 2016

Arria 10 上的 OpenCL (TM) 深度学习加速器

利用深度学习加速器（DLA）和 Winograd 变换技术，我们在 Intel Arria 10 设备上实现了 1020 图像 / 秒的性能，比 FPGA 上最先进的技术快 10 倍，同时也具有 5.8 倍的更高效率，并且与 nVidia TitanX GPU 上基于 AlexNet 的最佳公开实现比 23 img/s/W 具有竞争力。

Jan, 2017

深度学习系统的超高性能和能量效率：一种算法 - 硬件协同优化框架

本文旨在实现深度神经网络硬件实现的超高能效和性能，提出一种面向不同类型、大小和应用场景的 DNN 算法 - 硬件协同优化框架，并在硬件部分采用高效的 FPGA 实现，实验表明与 IBM TrueNorth 处理器和参考的 FPGA 实现相比，该框架至少实现了 152 倍的加速和 71 倍的能效增益。

Feb, 2018

分布式深度森林及其在自动检测提现欺诈中的应用

本研究基于原始 deep forest 模型，引入 MART 基础学习者，成本方法，MART 特征选择和不同评价指标等模型改进，开发出可用于极大规模任务的分布式 deep forest 模型，检测到超过 1 亿个训练样本的现金提款欺诈，实验结果表明该模型具有最佳性能，可以阻止每天大量的欺诈交易和显著降低经济损失。

May, 2018

可重构分布式 FPGA 集群设计用于深度学习加速器

基于低功耗的内嵌 FPGA 提出的分布式系统，可用于边缘计算应用，通过分布式调度优化深度学习负载以获得最佳性能，同时可以在多种配置下评估和管理神经网络工作负载。

May, 2023

基于 FPGA 的深度神经网络实现，仅使用芯片内存

本研究开发了一种基于 FPGA 的定点深度神经网络系统，实现了手写数字识别和音素识别任务，相较于基于 GPU 的系统有更高的效率和更低的功耗。

Feb, 2016

为定制硬件加速器编译深度学习模型

本研究旨在提出一种编译器，通过 Torch7 模型描述文件生成机器级指令，并实现了一种与卷积神经网络相关的定制硬件加速器 Snowflake，优化了模型结构解析、CNN 负载分解、内存带宽优化和平衡内存访问等方面，以达到生成的指令的性能与手动优化代码相当，并有效地执行 AlexNet 和 ResNet18 推理任务。

Aug, 2017

fpgaHART: 一种用于将 3D CNNs 加速到 FPGA 上的吞吐量导向的 HAR 工具流

研究提出一种工具流程，将 3D CNN 模型优化到 FPGA 设备上，采用同步数据流图来模拟设计并引入转换来拓展和探索设计空间，以实现高吞吐量设计。在多个 FPGA 设备上评估了各种 3D CNN 模型，证明了与早期手动调整和特定模型的设计相比，该工具流程具有竞争性的性能。

May, 2023