嵌入式汽车平台上卷积神经网络包的性能 / 功耗评估

Oct, 2023

嵌入式汽车平台上卷积神经网络包的性能 / 功耗评估

Performance/power assessment of CNN packages on embedded automotive platforms

Paolo Burgio, Gianluca Brilli

TL;DR最近的网络在嵌入式商用系统芯片上的有效性和效率进行了验证，为工程师选择最合适的卷积神经网络包和计算系统提供了指导。

Abstract

The rise of power-efficient embedded computers based on highly-parallel accelerators opens a number of opportunities and challenges for researchers and engineers, and paved the way to the era of edge computing. A

embedded computers edge computing embedded ai autonomous driving systems cnn package

发现论文，激发创造

ProAI: 用于汽车应用的高效嵌入式人工智能硬件 -- 基准研究

本文主要介绍了一种名为 ProAI 的汽车超级计算机，该计算机具有足够的性能和功率来支持运行深度神经网络，并且满足汽车安全完整性级别等必要的功能安全要求。同时，文章还对单板计算机在多任务 DNN 方面的表现进行了比较和讨论，以 FPS 和功率效率等性能指标为基准。在基准测试中，ProAI 的性能和效率都表现出色，比现代工作站笔记本电脑的每瓦帧数高近一倍，比 Jetson Nano 高近四倍，并且还有剩余的计算资源可供更复杂的任务使用。

Aug, 2021

面向移动和嵌入式应用的超高能效 CNN 领域特定加速器，功率为 9.3TOPS / 瓦

该论文介绍了一种用于实现基于卷积神经网络的计算机视觉应用的高效领域特定架构（DSA），并利用 DSA 设计了一个能够高效地支持移动设备和嵌入式系统的加速器，可用于实时图像分类和场景识别等实际应用。

Apr, 2018

YodaNN: 超低功耗二进制卷积神经网络加速架构

本文介绍了一种用于二进制权重卷积神经网络的加速器，能够在 1.2V 下实现 1510 GOp/s 的运算，且在 0.6V 下消耗 895 μW 的功率。这个加速器比先前的最新技术在能量和面积效率方面都有很大的优势。

Jun, 2016

边缘 GPU 中的 CNN 架构提取

通过进行侧信道分析，探索了神经网络在资源受限环境中的容易被逆向工程攻击的脆弱性，并发现神经网络架构可以通过深度学习的侧信道分析轻易被区分。

Jan, 2024

机器学习辅助的卷积神经网络推断系统计算机架构设计

我们的工作通过识别最合适的 GPGPU 用于 CNN 推理系统，提出了一种加快 DSE 过程的方法。我们开发了一种快速而精确的技术来预测 CNN 推理过程中的功耗和性能，MAPE 分别为 5.03％和 5.94％。这种方法使计算机架构师能够在开发初期估计功耗和性能，减少了大量原型的必要性。这不仅节省了时间和金钱，同时也改善了上市时间。

Aug, 2023

使用 AutoML 实现加速器感知的神经网络设计

采用硬件意识神经架构搜索，设计了一类适用于 Edge TPU 的计算机视觉模型，有效提升了实时图像分类性能并在像素 4 的边缘 TPU 上改善了精度 - 延迟权衡。

Mar, 2020

YUVMultiNet：用于自动驾驶的实时 YUV 多任务卷积神经网络

本文提出了一种多任务卷积神经网络 (CNN) 体系结构，旨在为低功率汽车级 SoC 进行优化，其中编码器在检测和分割两个任务之间共享，介绍了多种优化方法，如直接使用本地 YUV 图像、优化层和特征图以及应用量化等，并重点关注了内存带宽和卷积等数据密集型操作之间的瓶颈问题。最终，我们演示了我们所提出的网络在相应运行时中为检测和分割任务提供的关键性能指标 (KPI)。

Apr, 2019

低功耗物体检测的系统级解决方案

本文提出了一种面向异构嵌入式设备的高效物体检测系统解决方案，其中包括量化网络和专门的加速器，并采用分组数据流策略将计算密集型的卷积操作映射到加速器中以提高效率。研究结果显示，在 512x512 输入大小的实际监控视频中，该系统的推理速度可以达到 18 FPS，功耗仅为 6.9W，并在 PASCAL VOC 2012 数据集上实现了 66.4 的 mAP。

Sep, 2019

探索嵌入式计算系统中硬件友好的卷积神经网络瓶颈架构

本研究探索如何为嵌入式计算系统设计轻量级 CNN 架构，提出了适用于基于 ZYNQ 硬件平台的 L-Mobilenet 模型。L-Mobilenet 可以很好地适应硬件计算和加速，并且其网络结构受到 Inception-ResnetV1 和 MobilenetV2 等最先进技术的启发，能够有效减少参数和延迟，同时保持推理的准确性。通过在 cifar10 和 cifar100 数据集上进行测量，L-Mobilenet 模型相比 MobileNetV2 速度提升了 3 倍，参数减少了 3.7 倍，同时保持了类似的准确性。相较于 ShufflenetV2，L-Mobilenet 模型速度提升了 2 倍，参数减少了 1.5 倍，同时保持了相同的准确性。实验证明，由于对硬件加速和软硬件协同设计策略的特殊考虑，我们的网络模型能够获得更好的性能。

Mar, 2024

在 NVIDIA Jetson Nano 上为实时系统进行深度学习模型基准测试：一项实证研究

研究了在低计算能力和低内存设备上部署复杂的深度学习模型的优化方法以提高推断速度，证明了硬件特定的模型优化能够有效降低能源消耗和碳足迹。

Jun, 2024