用于物联网的可重构流式深度卷积神经网络加速器
本文介绍了一种用于二进制权重卷积神经网络的加速器,能够在 1.2V 下实现 1510 GOp/s 的运算,且在 0.6V 下消耗 895 μW 的功率。这个加速器比先前的最新技术在能量和面积效率方面都有很大的优势。
Jun, 2016
本文提出了一种设计方法,旨在分配在分布式 IoT 应用程序中卷积神经网络(CNNs)的执行。该方法在满足单元级内存和处理负载的约束条件下最小化数据采集阶段和随后的决策阶段之间的延迟。该方法支持多个数据源和多个 CNN 的执行,从而可以设计基于 CNN 的应用程序,要求具有自治性、低决策延迟和高服务质量。
Aug, 2019
本文中,提出了一种可扩展的高性能深度可分离卷积优化的卷积神经网络加速器,适用于不同大小的 FPGA,可以实现 GPU 级别的卷积操作,提高了计算速度。在 Arria 10 SoC FPGA 上实现了 MobileNetV2,并取得了比 CPU 快 20 倍的结果。
Sep, 2018
使用 FPGA 的推断加速器,通过优化计算数据流、降低存储需求和优化卷积神经网络的部署,实现了支持任意核大小的卷积神经网络的高效部署,从而在各种基于视觉的应用中取得了卓越的性能。
Feb, 2024
该论文介绍了一种用于实现基于卷积神经网络的计算机视觉应用的高效领域特定架构(DSA),并利用 DSA 设计了一个能够高效地支持移动设备和嵌入式系统的加速器,可用于实时图像分类和场景识别等实际应用。
Apr, 2018
提出了基于 FPGA 的卷积神经网络加速器范例和相应的自适应设计方法,该加速器范例将 FPGA 资源分割成多个处理器,提高卷积神经网络的计算效率和吞吐量
Jun, 2016
本研究提出了动态流式传输模型参数和基于库的方法来实现传统 CNN 架构的可扩展和动态分布式 CNN 推断,利用部分重构技术提高了资源受限的边缘设备的性能,并在 Xilinx PYNQ-Z2 板上实现了 LeNet-5 CNN 模型,具有 92%,86%和 94%的分类准确率。
Feb, 2022
利用深度学习加速器(DLA)和 Winograd 变换技术,我们在 Intel Arria 10 设备上实现了 1020 图像 / 秒的性能,比 FPGA 上最先进的技术快 10 倍,同时也具有 5.8 倍的更高效率,并且与 nVidia TitanX GPU 上基于 AlexNet 的最佳公开实现比 23 img/s/W 具有竞争力。
Jan, 2017
该研究实现了一种低功耗、可精确可扩展的卷积神经网络处理器,其充分利用卷积的稀疏性和动态精度可扩展性,实现了供应和能量缩放,能够在保持吞吐量的情况下最小化能量消耗,同时其实现的效率从 0.3-2.6 实际 TOPS/W,超越了同类产品达到 3.9 倍的能效。
Jun, 2016
该论文提出了一种硬件架构,以高灵活性处理深度卷积和常规卷积,支持不同大小的卷积核,具有比相关工作更快的速度和更少的计算和模型大小。此外,DDC 层的使用可以减少计算成本和模型大小,并提高准确性。
Apr, 2021