嵌入式汽车平台上卷积神经网络包的性能 / 功耗评估
本文主要介绍了一种名为 ProAI 的汽车超级计算机,该计算机具有足够的性能和功率来支持运行深度神经网络,并且满足汽车安全完整性级别等必要的功能安全要求。同时,文章还对单板计算机在多任务 DNN 方面的表现进行了比较和讨论,以 FPS 和功率效率等性能指标为基准。在基准测试中,ProAI 的性能和效率都表现出色,比现代工作站笔记本电脑的每瓦帧数高近一倍,比 Jetson Nano 高近四倍,并且还有剩余的计算资源可供更复杂的任务使用。
Aug, 2021
该论文介绍了一种用于实现基于卷积神经网络的计算机视觉应用的高效领域特定架构(DSA),并利用 DSA 设计了一个能够高效地支持移动设备和嵌入式系统的加速器,可用于实时图像分类和场景识别等实际应用。
Apr, 2018
本文介绍了一种用于二进制权重卷积神经网络的加速器,能够在 1.2V 下实现 1510 GOp/s 的运算,且在 0.6V 下消耗 895 μW 的功率。这个加速器比先前的最新技术在能量和面积效率方面都有很大的优势。
Jun, 2016
我们的工作通过识别最合适的 GPGPU 用于 CNN 推理系统,提出了一种加快 DSE 过程的方法。我们开发了一种快速而精确的技术来预测 CNN 推理过程中的功耗和性能,MAPE 分别为 5.03%和 5.94%。这种方法使计算机架构师能够在开发初期估计功耗和性能,减少了大量原型的必要性。这不仅节省了时间和金钱,同时也改善了上市时间。
Aug, 2023
采用硬件意识神经架构搜索,设计了一类适用于 Edge TPU 的计算机视觉模型,有效提升了实时图像分类性能并在像素 4 的边缘 TPU 上改善了精度 - 延迟权衡。
Mar, 2020
本文提出了一种多任务卷积神经网络 (CNN) 体系结构,旨在为低功率汽车级 SoC 进行优化,其中编码器在检测和分割两个任务之间共享,介绍了多种优化方法,如直接使用本地 YUV 图像、优化层和特征图以及应用量化等,并重点关注了内存带宽和卷积等数据密集型操作之间的瓶颈问题。最终,我们演示了我们所提出的网络在相应运行时中为检测和分割任务提供的关键性能指标 (KPI)。
Apr, 2019
本文提出了一种面向异构嵌入式设备的高效物体检测系统解决方案,其中包括量化网络和专门的加速器,并采用分组数据流策略将计算密集型的卷积操作映射到加速器中以提高效率。研究结果显示,在 512x512 输入大小的实际监控视频中,该系统的推理速度可以达到 18 FPS,功耗仅为 6.9W,并在 PASCAL VOC 2012 数据集上实现了 66.4 的 mAP。
Sep, 2019
本研究探索如何为嵌入式计算系统设计轻量级 CNN 架构,提出了适用于基于 ZYNQ 硬件平台的 L-Mobilenet 模型。L-Mobilenet 可以很好地适应硬件计算和加速,并且其网络结构受到 Inception-ResnetV1 和 MobilenetV2 等最先进技术的启发,能够有效减少参数和延迟,同时保持推理的准确性。通过在 cifar10 和 cifar100 数据集上进行测量,L-Mobilenet 模型相比 MobileNetV2 速度提升了 3 倍,参数减少了 3.7 倍,同时保持了类似的准确性。相较于 ShufflenetV2,L-Mobilenet 模型速度提升了 2 倍,参数减少了 1.5 倍,同时保持了相同的准确性。实验证明,由于对硬件加速和软硬件协同设计策略的特殊考虑,我们的网络模型能够获得更好的性能。
Mar, 2024
研究了在低计算能力和低内存设备上部署复杂的深度学习模型的优化方法以提高推断速度,证明了硬件特定的模型优化能够有效降低能源消耗和碳足迹。
Jun, 2024