Jul, 2022

采用超低比特量化和运行时技术加速在 Arm CPU 上的深度学习模型推理

TL;DR介绍了 Deeplite Neutrino 以及 Deeplite Runtime 来优化深度学习模型,并在 Arm-based 平台上部署超低比特量化模型。使用向量化,并行化和瓦片化高效实现,这些实现与 TensorFlow Lite 比较,分类和检测模型的速度提高了 2 倍和 2.2 倍,与 ONNX Runtime 比较,分类和检测模型的速度提高了 5 倍和 3.2 倍。