TL;DR本文探讨了在 CPU 上部署机器学习模型的缩放问题,提出了一种基于分而治之原则的简单而有效的方法来解决这个实际重要的问题,在 OnnxRuntime 框架中实施并用几个用例来评估其有效性,包括用于 OCR 和 NLP 的著名模型。
Abstract
Many popular machine learning models scale poorly when deployed on CPUs. In
this paper we explore the reasons why and propose a simple, yet effective
approach based on the well-known divide-and-conquer principle
本研究提出了一种名为 'NeoCPU' 的综合方法,通过对模板进行优化实现卷积神经网络模型的 CPU 推理,而不是依赖第三方库来实现模型图的单独操作优化,从而通过操作级别和图级别同时优化来进一步提高性能。实验结果表明,与当前各种流行 CPU 上的最先进实现相比,NeoCPU 的卷积神经网络模型推理延迟可降低 3.45 倍。