高性能机器学习推断的边缘人工智能平台基准测试

Sep, 2024

高性能机器学习推断的边缘人工智能平台基准测试

Benchmarking Edge AI Platforms for High-Performance ML Inference

Rakshith Jayanth, Neelesh Gupta, Viktor Prasanna

TL;DR本研究针对边缘计算中神经网络工作负载性能的差异，比较了CPU、CPU/GPU和CPU/NPU集成解决方案在执行线性代数和神经网络推断任务时的延迟和吞吐量。研究发现，NPU在矩阵-向量乘法和某些神经网络任务上表现优异，表明异构计算解决方案在边缘人工智能中的潜力可提高实时推断的准确性。

Abstract

Edge Computing's growing prominence, due to its ability to reduce communication latency and enable real-time processing, is promoting the rise of high-performance, heterogeneous System-on-Chip solutions. While current approaches often involve scaling down modern hardware, the performan

发现论文，激发创造

张量处理单元的数据中心性能分析

本研究是对 Tensor Processing Unit (TPU) 这种加速神经网络 (NN) 推理阶段的定制 ASIC 进行的评估，与同样部署在数据中心的 Intel Haswell CPU 和 Nvidia K80 GPU 相比，TPU 在保证相应时间的情况下比GPU或CPU平均快15倍-30倍，TOPS/Watt比GPU提高近70倍，比CPU提高200倍。

Apr, 2017

边缘人工智能：通过边缘计算加速深度神经网络推理

该论文提出了一种基于边缘计算的DNN协同推理框架Edgent，通过DNN分区和权衡设备的云资源和临近边缘资源来协调实时的DNN推理，进而降低计算延迟，实现低延迟边缘智能处理。

Oct, 2019

EdgeBERT：面向延迟感知的多任务NLP推理的句子级能耗优化

EdgeBERT 是一种算法硬件协同设计，提供基于熵的早期退出预测，以进行动态电压频率缩放(DVFS)，从而实现最小能耗，同时遵循预定的目标延迟，以适应资源受限的边缘平台，在最小的计算和存储占用开销下，提供多任务自然语言处理(NLP)加速，相比于传统的推理方法，无限制的早期退出方法以及在Nvidia Jetson Tegra X2移动GPU上的CUDA适配，EdgeBERT硬件系统在激活多任务NLP推理加速方面，能够生成高达7x，2.5x和53x的低能耗。

Nov, 2020

针对科学应用的图神经网络操作水平性能基准测试

通过在PyTorch Geometric软件框架中实现科学计算所需的低级操作并在NVIDIA A100 GPU上进行基准测试，我们发现在专用硬件平台上具有关键作用的操作时限制内存效率的瓶颈而不仅仅是数据稀疏性，希望这些结果能成为此类操作的基准，并有助于未来的软件和硬件优化，从而实现可扩展的GNN性能的整体增强。

Jul, 2022

边缘设备推理性能比较

本研究分析了 MobileNet，EfficientNet，VGG，Resnet 和 InceptionV3 等多个卷积神经网络在多种设置下的推理时间，结果发现 Google 平台的推理速度最快，特别是对于 MobileNet 或 EfficientNet 等较新的模型；而 Intel Neural Stick 是最通用的加速器，可运行大多数结构。

Jun, 2023

Miriam：在边缘GPU上利用弹性核心进行实时多DNN推理

提出了Miriam，一种用于多个边缘GPU上的深度神经网络任务协调的计划，通过弹性内核生成器和运行时动态内核协调器，可以实现混合关键性DNN推理，并且在关键任务上只产生不到10％的延迟开销，相比现有技术基准，系统吞吐量可提高92％。

Jul, 2023

PolyThrottle: 边缘设备上的能效高的神经网络推断

通过使用约束性贝叶斯优化，该研究论文研究在推理阶段配置与能耗之间的关系，提出了PolyThrottle解决方案，能够在满足应用约束条件的同时，对个别硬件组件进行优化配置，从而将能耗降低了36%。

Oct, 2023

异构受限计算中的边缘AI推断：可行性与机遇

网络边缘在人工智能（AI）推理处理中的作用正在快速扩大，驱动力是众多寻求计算优势的应用程序。

Oct, 2023

利用神经网络统计量进行低功耗DNN推理

通过无负担编码和神经网络数据和参数的统计分析，本研究提出了一种用于边缘人工智能推理引擎的低功耗技术，可以将互连和内存功耗降低高达80％，同时对计算块的功率进行附加节能，最高可达39％，而且不会降低准确性且硬件成本微不足道。

Nov, 2023

Opara：利用运算符并行性加速 GPU 上的 DNN 推断

提出了一种资源感知和干扰感知的DNN操作并行调度框架Opara，以加速在GPU上进行DNN推理的执行。通过使用CUDA Streams和CUDA Graph来自动并行化多个DNN操作的执行，并调整操作在GPU上的启动顺序，以重叠计算密集型和内存密集型操作的执行，从而加速DNN推理。实验证明，Opara在代表性的DNN和基于Transformer的模型上效果优于默认的顺序执行的CUDA Graph和最先进的DNN操作并行系统，分别提高了1.68倍和1.29倍，同时运行时开销可接受。

Dec, 2023