基于 FFT 的深度学习在嵌入式系统中的部署
本文总结了机器学习中的实际需求和挑战,重点介绍了深度神经网络的三种资源效率技术:量化神经网络,网络剪枝和结构效率,以及它们在诸如 CPU,GPU 和 FPGA 等嵌入式系统中的应用和实验结果。
Jan, 2020
深度神经网络在移动和嵌入式平台上执行推理具有延迟、隐私和始终可用性等多个关键优势。然而,由于计算资源有限,有效地在移动和嵌入式平台上部署深度神经网络具有挑战性。本论文提出了一种结合了算法和硬件的运行时性能权衡管理方法,通过动态超网络实现了实时满足变化的应用性能目标和硬件约束。在实验中,我们的模型在 Jetson Xavier NX 的 GPU 上使用 ImageNet 数据集相对于最先进的方法,在相似的 ImageNet Top-1 准确率下速度提高了 2.4 倍,或在相似的延迟下准确率提高了 5.1%。同时,我们设计了一个分级运行时资源管理器,在单模型部署场景中达到了 19% 的能量降低和 9% 的延迟降低,在两个并发模型部署场景中能量降低了 89%,延迟降低了 23%。
Jan, 2024
本论文探讨了 DNN 在资源受限的边缘设备上部署的优化问题,并研究了四种边缘智能场景下的深度学习方法,通过减少 DNN 冗余度来达到资源消耗与模型准确度之间的平衡。
Oct, 2022
该研究使用各种普通设备系统地评估了一系列最先进的 DNN,识别了每种架构的潜在瓶颈,并提供了可以帮助社区协同设计更高效的 DNN 和加速器的重要指导方针。
May, 2019
通过本文,我们调查了低功耗和能效更高的深度神经网络实现的最新进展,其提高了深度神经网络的可部署性而在不显著牺牲准确性的情况下。这些技术可以分为三个主要类别:神经网络压缩、网络架构搜索和设计、以及编译器和图优化。我们调查了卷积和变换器深度神经网络的低功耗技术,并总结了其优点、缺点和研究中的问题。
Aug, 2023
该论文提出了一种名为 Deep Embedding Forest 的模型,采用嵌入层和基于树 / 森林的层,以实现快速服务支持,同时借鉴 Deep Neural Networks 的高维特征映射能力,通过仅使用传统硬件,该模型在性能上与 DNN 模型相当。
Mar, 2017
本研究开发了一种基于 FPGA 的定点深度神经网络系统,实现了手写数字识别和音素识别任务,相较于基于 GPU 的系统有更高的效率和更低的功耗。
Feb, 2016
本文概述了高效深度学习的方法、系统和应用,包括流行的模型压缩方法、自动化模型设计和用户自定义的基于设备的训练,以及各种针对特定任务和空间 - 时间冗余的加速技术和系统设计。
Apr, 2022
最近在图像数据处理方面的研究进展表明,通过机器学习,尤其是深度神经网络(DNNs)的使用,可以通过数据驱动的人工智能为辐射探测器和成像设备提供新的优化和性能增强方案。我们概述了光子源的数据生成、基于深度学习的图像处理方法以及深度学习加速的硬件解决方案。目前大多数现有的深度学习方法是离线训练的,通常需要大量的计算资源。然而,一旦训练完成,DNNs 可以实现快速推理速度,并且可以部署到边缘设备上。边缘计算是一种新趋势,它具有较低的能量消耗(数百瓦或更少)和实时分析能力。虽然以往通常用于边缘计算的基于电子的硬件加速器(从中央处理器(CPU)到应用特定集成电路(ASICs)的通用目的处理器)正不断接近性能极限,在延迟、能量消耗和其他物理约束方面存在限制。这些限制催生了下一代模拟神经形态硬件平台,如光学神经网络(ONNs),用于高并行、低延迟和低能量计算,以提高深度学习加速。
Nov, 2023
本文综述了目前深度神经网络的应用及其在计算机视觉、语音识别、机器人等 AI 任务中的高精度表现,同时也阐述了深度神经网络大规模部署所面临的高算力成本和能效问题,并提出了硬件设计、算法优化等多种解决方案以提高能效和算力,最后对比了各种深度神经网络的设计指标并展示了很多发展资源。
Mar, 2017