Jun, 2024

CascadeServe: 解锁模型级联进行推理服务

TL;DRCascadeServe 通过使用模型级联进行端到端的推理服务自动化和优化,在不同工作负载上与现有技术进行比较时,在延迟 - 准确性空间的广泛范围内可以节约 2-3 倍的成本。