BriefGPT.xyz
Ask
alpha
关键词
latency slo
搜索结果 - 1
推理服务系统的高精度、成本效益和低延迟的调和
提出 InfAdapter 系统,使用机器学习变体及其资源分配来满足延迟服务级别目标(SLO),同时最大化由准确性和成本组成的目标函数,从而降低 SLO 违规和成本高达 65%和 33%。
PDF
a year ago
Prev
Next