Jul, 2022
采用超低比特量化和运行时技术加速在 Arm CPU 上的深度学习模型推理
Accelerating Deep Learning Model Inference on Arm CPUs with Ultra-Low Bit Quantization and Runtime
Saad Ashfaq, MohammadHossein AskariHemmat, Sudhakar Sah, Ehsan Saboori, Olivier Mastropietro...
TL;DR介绍了 Deeplite Neutrino 以及 Deeplite Runtime 来优化深度学习模型,并在 Arm-based 平台上部署超低比特量化模型。使用向量化,并行化和瓦片化高效实现,这些实现与 TensorFlow Lite 比较,分类和检测模型的速度提高了 2 倍和 2.2 倍,与 ONNX Runtime 比较,分类和检测模型的速度提高了 5 倍和 3.2 倍。