Jan, 2024
移动/嵌入式设备高效推理的动态深度神经网络和运行时管理
Dynamic DNNs and Runtime Management for Efficient Inference on
Mobile/Embedded Devices
TL;DR深度神经网络在移动和嵌入式平台上执行推理具有延迟、隐私和始终可用性等多个关键优势。然而,由于计算资源有限,有效地在移动和嵌入式平台上部署深度神经网络具有挑战性。本论文提出了一种结合了算法和硬件的运行时性能权衡管理方法,通过动态超网络实现了实时满足变化的应用性能目标和硬件约束。在实验中,我们的模型在Jetson Xavier NX的GPU上使用ImageNet数据集相对于最先进的方法,在相似的ImageNet Top-1准确率下速度提高了2.4倍,或在相似的延迟下准确率提高了5.1%。同时,我们设计了一个分级运行时资源管理器,在单模型部署场景中达到了19%的能量降低和9%的延迟降低,在两个并发模型部署场景中能量降低了89%,延迟降低了23%。