用于物联网的可重构流式深度卷积神经网络加速器

Jul, 2017

用于物联网的可重构流式深度卷积神经网络加速器

A Reconfigurable Streaming Deep Convolutional Neural Network Accelerator for Internet of Things

Li Du, Yuan Du, Yilei Li, Mau-Chung Frank Chang

TL;DR该研究提出了一种流式硬件加速器，通过避免不必要的数据移动和独特的滤波器分解技术，优化了能源效率，并支持任意卷积窗口大小和使用并行池化单元计算最大池化功能，进而实现了吞吐量的提高和较高的能效比，可在智能物联网设备中应用。

Abstract

convolutional neural network (CNN) offers significant accuracy in image detection. To implement image detection using CNN in the internet of things (IoT) devices, a →

convolutional neural network image detection streaming hardware accelerator energy efficiency iot devices

发现论文，激发创造

YodaNN: 超低功耗二进制卷积神经网络加速架构

本文介绍了一种用于二进制权重卷积神经网络的加速器，能够在 1.2V 下实现 1510 GOp/s 的运算，且在 0.6V 下消耗 895 μW 的功率。这个加速器比先前的最新技术在能量和面积效率方面都有很大的优势。

Jun, 2016

分布式深度卷积神经网络用于物联网

本文提出了一种设计方法，旨在分配在分布式 IoT 应用程序中卷积神经网络（CNNs）的执行。该方法在满足单元级内存和处理负载的约束条件下最小化数据采集阶段和随后的决策阶段之间的延迟。该方法支持多个数据源和多个 CNN 的执行，从而可以设计基于 CNN 的应用程序，要求具有自治性、低决策延迟和高服务质量。

Aug, 2019

使用深度可分离卷积在 FPGA 上加速卷积神经网络

本文中，提出了一种可扩展的高性能深度可分离卷积优化的卷积神经网络加速器，适用于不同大小的 FPGA，可以实现 GPU 级别的卷积操作，提高了计算速度。在 Arria 10 SoC FPGA 上实现了 MobileNetV2，并取得了比 CPU 快 20 倍的结果。

Sep, 2018

一种基于 FPGA 的加速器，实现对任意核大小的 CNN 的高效支持

使用 FPGA 的推断加速器，通过优化计算数据流、降低存储需求和优化卷积神经网络的部署，实现了支持任意核大小的卷积神经网络的高效部署，从而在各种基于视觉的应用中取得了卓越的性能。

Feb, 2024

面向移动和嵌入式应用的超高能效 CNN 领域特定加速器，功率为 9.3TOPS / 瓦

该论文介绍了一种用于实现基于卷积神经网络的计算机视觉应用的高效领域特定架构（DSA），并利用 DSA 设计了一个能够高效地支持移动设备和嵌入式系统的加速器，可用于实时图像分类和场景识别等实际应用。

Apr, 2018

通过资源分割最大化 CNN 加速器效率

提出了基于 FPGA 的卷积神经网络加速器范例和相应的自适应设计方法，该加速器范例将 FPGA 资源分割成多个处理器，提高卷积神经网络的计算效率和吞吐量

Jun, 2016

实现边缘智能动态卷积神经网络推理的探索

本研究提出了动态流式传输模型参数和基于库的方法来实现传统 CNN 架构的可扩展和动态分布式 CNN 推断，利用部分重构技术提高了资源受限的边缘设备的性能，并在 Xilinx PYNQ-Z2 板上实现了 LeNet-5 CNN 模型，具有 92％，86％和 94％的分类准确率。

Feb, 2022

Arria 10 上的 OpenCL (TM) 深度学习加速器

利用深度学习加速器（DLA）和 Winograd 变换技术，我们在 Intel Arria 10 设备上实现了 1020 图像 / 秒的性能，比 FPGA 上最先进的技术快 10 倍，同时也具有 5.8 倍的更高效率，并且与 nVidia TitanX GPU 上基于 AlexNet 的最佳公开实现比 23 img/s/W 具有竞争力。

Jan, 2017

实时大规模 ConvNets 的 0.3-2.6 TOPS/W 精度可扩展处理器

该研究实现了一种低功耗、可精确可扩展的卷积神经网络处理器，其充分利用卷积的稀疏性和动态精度可扩展性，实现了供应和能量缩放，能够在保持吞吐量的情况下最小化能量消耗，同时其实现的效率从 0.3-2.6 实际 TOPS/W，超越了同类产品达到 3.9 倍的能效。

Jun, 2016

嵌入式推理加速器硬件架构及深度卷积和大核卷积算法分析

该论文提出了一种硬件架构，以高灵活性处理深度卷积和常规卷积，支持不同大小的卷积核，具有比相关工作更快的速度和更少的计算和模型大小。此外，DDC 层的使用可以减少计算成本和模型大小，并提高准确性。

Apr, 2021