边缘设备推理性能比较
研究了在低计算能力和低内存设备上部署复杂的深度学习模型的优化方法以提高推断速度,证明了硬件特定的模型优化能够有效降低能源消耗和碳足迹。
Jun, 2024
本文介绍了如何利用手机上普遍存在的 GPU 加速器,在 Android 和 iOS 设备上实现深度神经网络的实时推断,并将其集成到开源项目 TensorFlow Lite 中。
Jul, 2019
本研究提出了一种分层框架,用于针对边缘部署开发和优化硬件感知的 CNN,并且在多种边缘 AI 加速器上进行全面的分析。使用该策略在 CK + 面部表情数据集上达到了 99.49% 的峰值准确度,并实现了 0.39 毫秒的最小推断延迟和 0.52 瓦特的最小功耗。
May, 2023
本研究聚焦于实时人脸表情识别(FER)系统作为社会机器人等各种现实世界应用的重要组成部分。我们调查了两种用于边缘部署 FER 机器学习(ML)模型的硬件选择:神经形态硬件和边缘 AI 加速器。我们的研究包括详尽的实验,对比分析了 Intel Loihi 神经形态处理器与四种不同的边缘平台:Raspberry Pi-4、Intel Neural Compute Stick(NSC)、Jetson Nano 和 Coral TPU。实验结果表明,Loihi 与边缘加速器相比,能够实现功耗降低约两个数量级,以及能耗节约约一个数量级。这些功耗和能耗的降低是在维持神经形态解决方案与边缘加速器相当准确性的情况下实现的,而且都在实时延迟要求内。
Jan, 2024
本论文探讨了 DNN 在资源受限的边缘设备上部署的优化问题,并研究了四种边缘智能场景下的深度学习方法,通过减少 DNN 冗余度来达到资源消耗与模型准确度之间的平衡。
Oct, 2022
我们提出了一种轻量级的 EdgeAI 架构,用于资源受限的边缘环境中的设备端训练,在 PCB 缺陷检测任务中展示出卓越的性能,同时在内存效率方面优于其他模型。
Dec, 2023
本文介绍了 IntelCaffe 的高效推断技术以及用于深度学习模型优化的技术,它是第一个支持 8 位低精度推断的 Intel 优化深度学习框架,能够在 Intel Xeon Scalable 处理器上加速卷积神经网络的模型优化过程。该模型的 8 位优化模型可通过一次标定过程从 FP32 模型自动生成,无需进行微调或重新训练,其在 ResNet-50、Inception-v3 和 SSD 上的推断吞吐量和延迟分别提高了 1.38X-2.9X 和 1.35X-3X,精度损失可忽略不计,与 IntelCaffe FP32 基线相比,这些技术还使得吞吐量和延迟分别提高了 56X-75X 和 26X-37X。这些技术已在 IntelCaffe GitHub 进行了开源,并提供了 Amazon AWS Cloud 上重现结果的文物。
May, 2018
该论文提出了一种基于边缘计算的 DNN 协同推理框架 Edgent,通过 DNN 分区和权衡设备的云资源和临近边缘资源来协调实时的 DNN 推理,进而降低计算延迟,实现低延迟边缘智能处理。
Oct, 2019