使用移动GPU进行设备端神经网络推断
介绍了一个基于GPU加速的开源库CNNdroid,可以在Android设备上执行训练好的深度卷积神经网络,并实现了高达60倍的加速和130倍的能量节省。
Nov, 2015
本文介绍MobiRNN优化框架,旨在解决移动设备上RNN模型的隐私和效率问题。实现了专门针对移动GPU的GPU卸载。通过运行RNN模型以进行活动识别的评估,结果表明使用MobiRNN明显降低了在手机上运行RNN模型的延迟。
Jun, 2017
本文评估了高通、海思、三星、联发科和紫光展锐提供的AI推理硬件加速的所有芯片组的性能,并比较了它们的结果。同时,我们还讨论了Android ML流水线的最近变化,并提供了在移动设备上部署深度学习模型的概述。
Oct, 2019
本文提出了 PhoneBit,一种针对基于 Android 的移动设备的 GPU 加速二值神经网络推断引擎,旨在通过运用区别于桌面平台的架构,提出操作级优化方案,以挖掘移动GPU的计算能力,实现二值卷积的高效率,从而取得了相比移动设备上其它顶尖框架更为显著的速度加速和能量效率改进。
Dec, 2019
本文介绍了移动神经网络(Mobile Neural Network,MNN),它是一种适用于移动应用的普适且高效的推理引擎,解决了在移动设备上进行深度学习模型推理的模型兼容性、设备多样性和资源限制等挑战,采用了称为预推理的机制进行运行时优化,针对操作符进行了彻底的内核优化以实现最佳计算性能,并引入了后端抽象模块,实现了混合调度并保持引擎轻量级。广泛的基准实验表明,MNN在性能上与其他流行的轻量级深度学习框架相当。
Feb, 2020
本文提出应用硬件友好的结构化模型压缩和编译器优化技术以加速在移动设备上的深度神经网络执行,实验结果表明这些优化技术可以实现多个深度神经网络应用,如风格迁移、DNN 着色和超分辨率的实时移动执行。
Apr, 2020
本研究分析了 MobileNet,EfficientNet,VGG,Resnet 和 InceptionV3 等多个卷积神经网络在多种设置下的推理时间,结果发现 Google 平台的推理速度最快,特别是对于 MobileNet 或 EfficientNet 等较新的模型;而 Intel Neural Stick 是最通用的加速器,可运行大多数结构。
Jun, 2023
深度神经网络在移动和嵌入式平台上执行推理具有延迟、隐私和始终可用性等多个关键优势。然而,由于计算资源有限,有效地在移动和嵌入式平台上部署深度神经网络具有挑战性。本论文提出了一种结合了算法和硬件的运行时性能权衡管理方法,通过动态超网络实现了实时满足变化的应用性能目标和硬件约束。在实验中,我们的模型在Jetson Xavier NX的GPU上使用ImageNet数据集相对于最先进的方法,在相似的ImageNet Top-1准确率下速度提高了2.4倍,或在相似的延迟下准确率提高了5.1%。同时,我们设计了一个分级运行时资源管理器,在单模型部署场景中达到了19%的能量降低和9%的延迟降低,在两个并发模型部署场景中能量降低了89%,延迟降低了23%。
Jan, 2024
在资源受限的移动设备上部署计算密集型的深度学习模型以实现实时智能应用的需求与日俱增,在各种处理单元(如CPU、GPU和NPU)的支持下,移动设备有潜力通过在异构处理器之间进行并行执行来加速深度学习推理。本文通过精心设计的实验,涵盖了各种深度学习模型、移动软件/硬件环境、工作负载模式和资源可用性,综合性地评估了在异构移动处理器上进行并行深度学习推理的能力和挑战,并确定了现有技术的局限性,并强调了跨层级优化的机会。
May, 2024