Nov, 2024

FastSwitch:优化公平性意识的大语言模型服务中的上下文切换效率

TL;DR本研究解决了大语言模型服务系统在处理多个用户请求时的公平性问题,特别是上下文切换带来的性能开销。通过引入FastSwitch,这一公平性意识的服务系统在保持现有KV缓存内存分配政策的同时,有效降低了上下文切换开销。评估结果表明,FastSwitch在不同尾部TTFT和TBT方面相较于现有技术vLLM实现了1.4至11.2倍的速度提升。