Apr, 2024

Andes: 在基于LLM的文本流媒体服务中定义和增强用户体验质量

TL;DRAndes是一种以QoE为导向的服务系统,旨在提高基于大型语言模型的文本流式服务的用户体验,并通过在GPU资源之间的战略分配来优化QoE。与vLLM等现有的LLM服务系统相比,Andes在高请求率下可将平均QoE提高高达3.2倍,或者以高QoE为前提达到高达1.6倍的请求率。