Oct, 2023

SIMD 数据流协同优化用于 CPU 上高效神经网络推理

TL;DR通过使用数据流和启发式引导分析及代码生成框架,我们致力于解决在 CPU 上部署神经网络时所面临的挑战,特别注重在保持准确性的同时最小化推断时间。我们的研究结果表明,通过保持输出在 SIMD 寄存器中的数据流,并同时最大限度地利用输入和权重重用,可以实现各种推断工作负载的最佳性能,使 8 位神经网络的速度提高 3 倍,二进制神经网络的速度提高 4.8 倍。