大语言模型快速分布式推理服务
通过使用轻量级代理模型来预测 LLM 输出序列长度,我们提出了一种具有推测的最短作业先执行调度程序,以解决 LLM 非确定性特性并实现高效的互动式 LLM 服务。相对于 FCFS 调度程序,在无批处理、动态批处理和连续批处理设置下,对真实世界的数据集和生产工作负载轨迹进行评估显示 SSJF 能够减少平均作业完成时间 30.5-39.6%,同时提高吞吐量 2.2-3.6 倍。
Apr, 2024
通过使用可中止的 GPU 实例来降低大型语言生成模型的运行成本,本文提出了 SpotServe,一个在可中止实例上实现快速、可靠且经济高效地提供生成型语言模型服务的分布式系统。它采用动态自适应并行化配置、最小化实例迁移成本的迁移规划算法,并引入了基于状态的推断恢复机制,从而大幅降低 P99 尾延迟,并节省 54%的运行成本。
Nov, 2023
APIServe 是第一个针对 API 增强型 LLM 的推理框架,可以减少由 API 调用引起的 GPU 资源浪费,提高整体服务吞吐量 1.6 倍,并比现有的 LLM 推理系统每秒完成 2 倍更多的请求。
Feb, 2024
通过部署批处理技术和资源有限的边缘设备上的模型量化,我们在此论文中提出了一种针对基于 Transformer 解码器的大语言模型推断的边缘智能优化问题,旨在通过批处理调度和通信、计算资源的联合分配来最大化推断吞吐量,同时考虑边缘资源约束和不同用户对延迟和准确性的需求。为了解决这个 NP-hard 问题,我们开发了一种在可行时间复杂度内运行的带有在线树剪枝的最优深度优先搜索算法(DFTSP)。模拟结果表明,DFTSP 在各种用户设置和量化技术中超越了其他批处理基准,并且与蛮力搜索方法相比,它的时间复杂度降低了 45% 以上。
May, 2024
我们提出了 FlexLLM,这是第一个能够在同一次迭代中处理推理和参数高效微调请求的系统,通过协同服务的方法,利用共享的 GPU 资源来同时运行这两个任务,FlexLLM 的合作服务方法减少了激活 GPU 内存开销高达 8 倍,并将微调的整个 GPU 内存要求降低了最多 36%,同时保持了低推理延迟并提高了微调吞吐量。
Feb, 2024
介绍了一种高效的 LLM 推理调度器 Sarathi-Serve,通过利用来自 Sarathi 的分块预填充技术,创建无停顿的调度,可以在正在进行的解码过程中批量添加新的请求,从而提高吞吐量,同时将对延迟的影响降至最低。
Mar, 2024
本文介绍了 ServerlessLLM,一种用于大型语言模型的增强本地化服务器推理系统。ServerlessLLM 通过三个主要贡献实现了高效的检查点加载和推理:(i) 通过新颖的加载优化检查点格式设计和高效的多层检查点加载系统实现快速检查点加载;(ii) 基于本地化的推理和实时迁移,以在保持正在进行的推理的低延迟的同时有效实现本地化的服务器分配;以及 (iii) 考虑本地化的服务器分配,使 ServerlessLLM 能够评估集群中每个服务器的状态,并有效地调度模型的启动时间以发挥本地检查点放置的优势。我们进行的广泛实验,包括微基准测试和真实世界的追踪,表明当运行不同的语言模型推理工作负载时,ServerlessLLM 的延迟性能超过了现有技术系统 10-200 倍。
Jan, 2024
基于多模型队列管理框架 QLM,通过模型交换、请求驱逐、GPU-CPU 状态交换、负载均衡和温启动模型等方法,最大化达到 SLO 并提高吞吐量,有效解决了大语言模型的延迟挑战。
Jun, 2024
提议了一种高效的大型语言模型推理解决方案,通过简化模型结构、融合数据移动和逐元素操作、使用段落 KV 缓存策略等方法降低系统延迟并提高吞吐量,在 Intel GPU 上相对于标准 HuggingFace 实现,能够实现高达 7 倍的令牌延迟降低和 27 倍的吞吐量提升。
Dec, 2023
提出了一种弹性序列并行性(ESP)的新并行策略,以适应大语言模型(LLMs)的不同请求和不同阶段之间的差异,并设计构建了一个名为 LoongServe 的 LLM 服务系统,该系统通过实时弹性调整并行度、减少键值缓存迁移开销、同时计算部分解码通信以及减少键值缓存碎片化,从而提高计算效率、通信效率和 GPU 内存性能。评估结果表明,与分块预填充和预填充解耦相比,LoongServe 最大吞吐量提高了 3.85 倍和 5.81 倍。
Apr, 2024