BriefGPT.xyz
Ask
alpha
关键词
workload adaption
搜索结果 - 1
CascadeServe: 解锁模型级联进行推理服务
CascadeServe 通过使用模型级联进行端到端的推理服务自动化和优化,在不同工作负载上与现有技术进行比较时,在延迟 - 准确性空间的广泛范围内可以节约 2-3 倍的成本。
PDF
16 days ago
Prev
Next