BriefGPT.xyz
Ask
alpha
关键词
tail latencies
搜索结果 - 1
Llumnix: 大规模语言模型服务的动态调度
Llumnix 是一种用于大型语言模型(LLMs)服务的系统,通过在多个模型实例之间进行运行时重新调度,以应对异构且不可预测的请求,从而改善尾延迟,加快高优先级请求,并实现成本节省。
PDF
a month ago
Prev
Next