May, 2024

Preble: 高效的分布式提示调度方法用于LLM服务

TL;DR本研究提出了Preble,这是首个以共享提示为目标并进行优化的分布式大型语言模型服务平台。我们对五种常见工作负载进行了研究,并基于研究结果设计了一个分布式调度系统,同时优化计算重用和负载平衡。我们对Preble在两个开源语言模型上的真实工作负载和请求到达模式下使用2到8个GPU的性能评估结果表明,Preble的平均延迟比现有技术提高了1.5倍至14.5倍,p99提高了2倍至10倍。