Jun, 2024

Llumnix: 大规模语言模型服务的动态调度

TL;DRLlumnix 是一种用于大型语言模型(LLMs)服务的系统,通过在多个模型实例之间进行运行时重新调度,以应对异构且不可预测的请求,从而改善尾延迟,加快高优先级请求,并实现成本节省。