Apr, 2023

推理服务系统的高精度、成本效益和低延迟的调和

TL;DR提出 InfAdapter 系统,使用机器学习变体及其资源分配来满足延迟服务级别目标(SLO),同时最大化由准确性和成本组成的目标函数,从而降低 SLO 违规和成本高达 65%和 33%。