Llumnix: 大规模语言模型服务的动态调度
基于多模型队列管理框架 QLM,通过模型交换、请求驱逐、GPU-CPU 状态交换、负载均衡和温启动模型等方法,最大化达到 SLO 并提高吞吐量,有效解决了大语言模型的延迟挑战。
Jun, 2024
本文介绍了 ServerlessLLM,一种用于大型语言模型的增强本地化服务器推理系统。ServerlessLLM 通过三个主要贡献实现了高效的检查点加载和推理:(i) 通过新颖的加载优化检查点格式设计和高效的多层检查点加载系统实现快速检查点加载;(ii) 基于本地化的推理和实时迁移,以在保持正在进行的推理的低延迟的同时有效实现本地化的服务器分配;以及 (iii) 考虑本地化的服务器分配,使 ServerlessLLM 能够评估集群中每个服务器的状态,并有效地调度模型的启动时间以发挥本地检查点放置的优势。我们进行的广泛实验,包括微基准测试和真实世界的追踪,表明当运行不同的语言模型推理工作负载时,ServerlessLLM 的延迟性能超过了现有技术系统 10-200 倍。
Jan, 2024
本文介绍了一种用于大型语言模型(LLMs)的新型低延迟推断框架,使 LLMs 能够使用不完整的提示进行推断,并通过重新分配计算过程到提示输入阶段,实现了大幅度的延迟降低,从而显著提高用户与 LLMs 的交互体验。该框架灵活地管理模型对流式提示的可见性,允许它从不完整的提示中进行推断或等待附加提示。与使用完整提示的传统推断方法相比,我们的方法在 MMLU-Pro 数据集上表现出平均响应延迟减少 59%,同时保持相当的准确性。此外,我们的框架促进了不同模型之间的协同推断和输出。通过使用 LLM 进行推断和使用小型语言模型(SLM)进行输出,与 SLM 基线相比,我们在 MMLU-Pro 数据集上实现了平均响应延迟减少 68%,准确性提高了 5.5%。对于超过 20 个句子的长提示,响应延迟可以降低高达 93%。
Jun, 2024
FastServe 是一种分布式推理服务系统,利用预 emption 技术在输出单词级别上最小化了 Large language models 的 inference 时间,并采用 GPU 内存管理机制,与现有解决方案相比可将平均和 tail JCT 分别提高了 5.1 倍和 6.4 倍。
May, 2023
介绍了一种名为 Helix 的分布式系统,用于在异构 GPU 集群上提供高吞吐量和低延迟的大语言模型(LLM)服务。通过将 LLMs 的推理计算以最大流问题形式表示为有向加权图,使用混合整数线性规划(MILP)算法来发现高度优化的策略,从而联合优化模型放置和请求调度,在几个异构集群设置上的评估结果表明,与现有的最佳方法相比,Helix 将服务吞吐量提高了 2.7 倍,并将提示和解码延迟分别降低了 2.8 倍和 1.3 倍。
Jun, 2024
传统的优化与调度方案往往只考虑固定的系统要求,而未来的系统将采用用户驱动的方法和个性化服务,致力于实现高质量体验和灵活性。本文首次提出了一种新颖的资源调度架构,通过构建三个大语言模型代理来将任意用户的语音请求转化为资源分配向量。通过针对电动汽车充电的典型语音请求进行测试,结果表明所提出的架构的高效性。
Jun, 2024
我们探索了大型语言模型(LLMs)的潜在应用,它能自动建模约束并为动态调度问题生成代码。我们提出了一种基于检索增强生成(RAG)的 LLM 模型,用于自动实现动态调度的约束,以减少数学建模和计算负荷对最终用户的技术复杂性。
May, 2024
本研究旨在通过使用闪存将模型参数存储在 DRAM 之外,以满足超过 DRAM 容量的大型语言模型(LLMs)的高效运行需求。本文提出了两种主要技术,即通过重新使用已激活的神经元来减少数据传输的 “窗口化” 与利用闪存的顺序数据访问能力来增加数据块大小的 “行列捆绑”。这些方法使得模型能够在可用 DRAM 容量的两倍大小的情况下运行,并在与传统加载方法相比,CPU 和 GPU 分别实现 4-5 倍和 20-25 倍的推理速度提升。本研究通过结合稀疏感知、上下文自适应加载和面向硬件的设计,为在内存有限的设备上进行有效的 LLMs 推理铺平了道路。
Dec, 2023
对大型语言模型进行了深入研究,调查了与以往任务特定的深度学习工作负载之间的差异,探索了资源利用模式,并确定了各种作业故障的影响。通过故障容忍的预训练和评估的解耦调度,提出了优化针对大型语言模型系统的潜在机会。
Mar, 2024