Jun, 2024
CascadeServe: 解锁模型级联进行推理服务
CascadeServe: Unlocking Model Cascades for Inference Serving
Ferdi Kossmann, Ziniu Wu, Alex Turk, Nesime Tatbul, Lei Cao...
TL;DRCascadeServe 通过使用模型级联进行端到端的推理服务自动化和优化,在不同工作负载上与现有技术进行比较时,在延迟 - 准确性空间的广泛范围内可以节约 2-3 倍的成本。