高性能机器学习推断的边缘人工智能平台基准测试
本研究是对 Tensor Processing Unit (TPU) 这种加速神经网络 (NN) 推理阶段的定制 ASIC 进行的评估,与同样部署在数据中心的 Intel Haswell CPU 和 Nvidia K80 GPU 相比,TPU 在保证相应时间的情况下比GPU或CPU平均快15倍-30倍,TOPS/Watt比GPU提高近70倍,比CPU提高200倍。
Apr, 2017
该论文提出了一种基于边缘计算的DNN协同推理框架Edgent,通过DNN分区和权衡设备的云资源和临近边缘资源来协调实时的DNN推理,进而降低计算延迟,实现低延迟边缘智能处理。
Oct, 2019
EdgeBERT 是一种算法硬件协同设计,提供基于熵的早期退出预测,以进行动态电压频率缩放(DVFS),从而实现最小能耗,同时遵循预定的目标延迟,以适应资源受限的边缘平台,在最小的计算和存储占用开销下,提供多任务自然语言处理(NLP)加速,相比于传统的推理方法,无限制的早期退出方法以及在Nvidia Jetson Tegra X2移动GPU上的CUDA适配,EdgeBERT硬件系统在激活多任务NLP推理加速方面,能够生成高达7x,2.5x和53x的低能耗。
Nov, 2020
通过在PyTorch Geometric软件框架中实现科学计算所需的低级操作并在NVIDIA A100 GPU上进行基准测试,我们发现在专用硬件平台上具有关键作用的操作时限制内存效率的瓶颈而不仅仅是数据稀疏性,希望这些结果能成为此类操作的基准,并有助于未来的软件和硬件优化,从而实现可扩展的GNN性能的整体增强。
Jul, 2022
本研究分析了 MobileNet,EfficientNet,VGG,Resnet 和 InceptionV3 等多个卷积神经网络在多种设置下的推理时间,结果发现 Google 平台的推理速度最快,特别是对于 MobileNet 或 EfficientNet 等较新的模型;而 Intel Neural Stick 是最通用的加速器,可运行大多数结构。
Jun, 2023
提出了Miriam,一种用于多个边缘GPU上的深度神经网络任务协调的计划,通过弹性内核生成器和运行时动态内核协调器,可以实现混合关键性DNN推理,并且在关键任务上只产生不到10%的延迟开销,相比现有技术基准,系统吞吐量可提高92%。
Jul, 2023
通过使用约束性贝叶斯优化,该研究论文研究在推理阶段配置与能耗之间的关系,提出了PolyThrottle解决方案,能够在满足应用约束条件的同时,对个别硬件组件进行优化配置,从而将能耗降低了36%。
Oct, 2023
通过无负担编码和神经网络数据和参数的统计分析,本研究提出了一种用于边缘人工智能推理引擎的低功耗技术,可以将互连和内存功耗降低高达80%,同时对计算块的功率进行附加节能,最高可达39%,而且不会降低准确性且硬件成本微不足道。
Nov, 2023
提出了一种资源感知和干扰感知的DNN操作并行调度框架Opara,以加速在GPU上进行DNN推理的执行。通过使用CUDA Streams和CUDA Graph来自动并行化多个DNN操作的执行,并调整操作在GPU上的启动顺序,以重叠计算密集型和内存密集型操作的执行,从而加速DNN推理。实验证明,Opara在代表性的DNN和基于Transformer的模型上效果优于默认的顺序执行的CUDA Graph和最先进的DNN操作并行系统,分别提高了1.68倍和1.29倍,同时运行时开销可接受。
Dec, 2023