Apr, 2023
推理服务系统的高精度、成本效益和低延迟的调和
Reconciling High Accuracy, Cost-Efficiency, and Low Latency of Inference Serving Systems
Mehran Salmani, Saeid Ghafouri, Alireza Sanaee, Kamran Razavi, Max Mühlhäuser...
TL;DR提出 InfAdapter 系统,使用机器学习变体及其资源分配来满足延迟服务级别目标(SLO),同时最大化由准确性和成本组成的目标函数,从而降低 SLO 违规和成本高达 65%和 33%。