大语言模型快速分布式推理服务

May, 2023

Fast Distributed Inference Serving for Large Language Models

Bingyang Wu, Yinmin Zhong, Zili Zhang, Gang Huang, Xuanzhe Liu...

TL;DRFastServe 是一种分布式推理服务系统，利用预 emption 技术在输出单词级别上最小化了 Large language models 的 inference 时间，并采用 GPU 内存管理机制，与现有解决方案相比可将平均和 tail JCT 分别提高了 5.1 倍和 6.4 倍。

Abstract

large language models (LLMs) power a new generation of interactive AI applications exemplified by ChatGPT. The interactive nature of these applications demand low job completion time (JCT) for model inference. Existing LLM serving systems use run-to-completion processing for inference

large language models fastserve inference serving system preemption gpu memory management

发现论文，激发创造

基于代理模型的序列长度预测的高效互动 LLM 服务

通过使用轻量级代理模型来预测 LLM 输出序列长度，我们提出了一种具有推测的最短作业先执行调度程序，以解决 LLM 非确定性特性并实现高效的互动式 LLM 服务。相对于 FCFS 调度程序，在无批处理、动态批处理和连续批处理设置下，对真实世界的数据集和生产工作负载轨迹进行评估显示 SSJF 能够减少平均作业完成时间 30.5-39.6%，同时提高吞吐量 2.2-3.6 倍。

Apr, 2024

SpotServe: 在可中途终止的实例上为生成式大型语言模型提供服务

通过使用可中止的 GPU 实例来降低大型语言生成模型的运行成本，本文提出了 SpotServe，一个在可中止实例上实现快速、可靠且经济高效地提供生成型语言模型服务的分布式系统。它采用动态自适应并行化配置、最小化实例迁移成本的迁移规划算法，并引入了基于状态的推断恢复机制，从而大幅降低 P99 尾延迟，并节省 54％的运行成本。

Nov, 2023

APIServe：大型语言模型推理的高效 API 支持

APIServe 是第一个针对 API 增强型 LLM 的推理框架，可以减少由 API 调用引起的 GPU 资源浪费，提高整体服务吞吐量 1.6 倍，并比现有的 LLM 推理系统每秒完成 2 倍更多的请求。

Feb, 2024

边缘智能优化大型语言模型推断 —— 批处理和量化

通过部署批处理技术和资源有限的边缘设备上的模型量化，我们在此论文中提出了一种针对基于 Transformer 解码器的大语言模型推断的边缘智能优化问题，旨在通过批处理调度和通信、计算资源的联合分配来最大化推断吞吐量，同时考虑边缘资源约束和不同用户对延迟和准确性的需求。为了解决这个 NP-hard 问题，我们开发了一种在可行时间复杂度内运行的带有在线树剪枝的最优深度优先搜索算法（DFTSP）。模拟结果表明，DFTSP 在各种用户设置和量化技术中超越了其他批处理基准，并且与蛮力搜索方法相比，它的时间复杂度降低了 45% 以上。

May, 2024

FlexLLM: 用于共同服务大型语言模型推理和参数高效调优的系统

我们提出了 FlexLLM，这是第一个能够在同一次迭代中处理推理和参数高效微调请求的系统，通过协同服务的方法，利用共享的 GPU 资源来同时运行这两个任务，FlexLLM 的合作服务方法减少了激活 GPU 内存开销高达 8 倍，并将微调的整个 GPU 内存要求降低了最多 36％，同时保持了低推理延迟并提高了微调吞吐量。

Feb, 2024

使用 Sarathi-Serve 调节 LLM 推理中的吞吐量 - 延迟平衡

介绍了一种高效的 LLM 推理调度器 Sarathi-Serve，通过利用来自 Sarathi 的分块预填充技术，创建无停顿的调度，可以在正在进行的解码过程中批量添加新的请求，从而提高吞吐量，同时将对延迟的影响降至最低。

Mar, 2024

ServerlessLLM: 针对大型语言模型的增强本地化无服务器推理

本文介绍了 ServerlessLLM，一种用于大型语言模型的增强本地化服务器推理系统。ServerlessLLM 通过三个主要贡献实现了高效的检查点加载和推理：(i) 通过新颖的加载优化检查点格式设计和高效的多层检查点加载系统实现快速检查点加载；(ii) 基于本地化的推理和实时迁移，以在保持正在进行的推理的低延迟的同时有效实现本地化的服务器分配；以及 (iii) 考虑本地化的服务器分配，使 ServerlessLLM 能够评估集群中每个服务器的状态，并有效地调度模型的启动时间以发挥本地检查点放置的优势。我们进行的广泛实验，包括微基准测试和真实世界的追踪，表明当运行不同的语言模型推理工作负载时，ServerlessLLM 的延迟性能超过了现有技术系统 10-200 倍。

Jan, 2024

只需一个队列：解决大型语言模型服务中的头部阻塞问题

基于多模型队列管理框架 QLM，通过模型交换、请求驱逐、GPU-CPU 状态交换、负载均衡和温启动模型等方法，最大化达到 SLO 并提高吞吐量，有效解决了大语言模型的延迟挑战。

Jun, 2024

基于英特尔 GPU 的高效 LLM 推理解决方案

提议了一种高效的大型语言模型推理解决方案，通过简化模型结构、融合数据移动和逐元素操作、使用段落 KV 缓存策略等方法降低系统延迟并提高吞吐量，在 Intel GPU 上相对于标准 HuggingFace 实现，能够实现高达 7 倍的令牌延迟降低和 27 倍的吞吐量提升。

Dec, 2023

LoongServe：高效提供弹性序列并行性的长上下文大模型

提出了一种弹性序列并行性（ESP）的新并行策略，以适应大语言模型（LLMs）的不同请求和不同阶段之间的差异，并设计构建了一个名为 LoongServe 的 LLM 服务系统，该系统通过实时弹性调整并行度、减少键值缓存迁移开销、同时计算部分解码通信以及减少键值缓存碎片化，从而提高计算效率、通信效率和 GPU 内存性能。评估结果表明，与分块预填充和预填充解耦相比，LoongServe 最大吞吐量提高了 3.85 倍和 5.81 倍。

Apr, 2024