Apr, 2024

LoongServe:高效提供弹性序列并行性的长上下文大模型

TL;DR提出了一种弹性序列并行性(ESP)的新并行策略,以适应大语言模型(LLMs)的不同请求和不同阶段之间的差异,并设计构建了一个名为 LoongServe 的 LLM 服务系统,该系统通过实时弹性调整并行度、减少键值缓存迁移开销、同时计算部分解码通信以及减少键值缓存碎片化,从而提高计算效率、通信效率和 GPU 内存性能。评估结果表明,与分块预填充和预填充解耦相比,LoongServe 最大吞吐量提高了 3.85 倍和 5.81 倍。