Nov, 2023

Packrat: 基于 CPU 的 DNN 服务的自动重新配置以降低延迟

TL;DR通过在 CPU 服务器上使用深度神经网络模型,本文提出了一个新的在线推理系统 Packrat,通过调整模型实例数、线程数和批次大小来最小化推理延迟。实验结果表明,在一系列批次大小中,Packrat 在常用的深度神经网络中将推理延迟提高了 1.43 倍至 1.83 倍。