只需一个队列：解决大型语言模型服务中的头部阻塞问题

Jun, 2024

只需一个队列：解决大型语言模型服务中的头部阻塞问题

One Queue Is All You Need: Resolving Head-of-Line Blocking in Large Language Model Serving

Archit Patke, Dhemath Reddy, Saurabh Jha, Haoran Qiu, Christian Pinto...

TL;DR基于多模型队列管理框架 QLM，通过模型交换、请求驱逐、GPU-CPU 状态交换、负载均衡和温启动模型等方法，最大化达到 SLO 并提高吞吐量，有效解决了大语言模型的延迟挑战。

Abstract

$ $large language models (LLMs) have become an increasingly important workload for cloud providers catering to both enterprise and consumer applications. LLM inference requests from these applications have end-to-end latency SLOs that must be adhered to in production settings. However,

large language models llm serving systems end-to-end latency slos hol blocking qlm

发现论文，激发创造

朝着帕累托最优吞吐量的小语言模型服务

通过实验和分析，本文旨在对小型语言模型的推理性能和能量效率进行基准测试，并得出结论说明模型复制可以有效提高服务小型语言模型时的资源利用率。

Apr, 2024

大语言模型快速分布式推理服务

FastServe 是一种分布式推理服务系统，利用预 emption 技术在输出单词级别上最小化了 Large language models 的 inference 时间，并采用 GPU 内存管理机制，与现有解决方案相比可将平均和 tail JCT 分别提高了 5.1 倍和 6.4 倍。

May, 2023

基于代理模型的序列长度预测的高效互动 LLM 服务

通过使用轻量级代理模型来预测 LLM 输出序列长度，我们提出了一种具有推测的最短作业先执行调度程序，以解决 LLM 非确定性特性并实现高效的互动式 LLM 服务。相对于 FCFS 调度程序，在无批处理、动态批处理和连续批处理设置下，对真实世界的数据集和生产工作负载轨迹进行评估显示 SSJF 能够减少平均作业完成时间 30.5-39.6%，同时提高吞吐量 2.2-3.6 倍。

Apr, 2024

Llumnix: 大规模语言模型服务的动态调度

Llumnix 是一种用于大型语言模型（LLMs）服务的系统，通过在多个模型实例之间进行运行时重新调度，以应对异构且不可预测的请求，从而改善尾延迟，加快高优先级请求，并实现成本节省。

Jun, 2024

QuickLLaMA: 大型语言模型的查询感知推理加速

通过引入针对大型语言模型（LLMs）的查询感知推理（Q-LLM）系统，我们解决了在序列中捕捉长距离依赖以实现深层语义理解的问题，并且在 LLaMA3 和 Mistral 基准上得到了显著的性能提升。

Jun, 2024

大型语言模型对电力调度的用户导向方法

传统的优化与调度方案往往只考虑固定的系统要求，而未来的系统将采用用户驱动的方法和个性化服务，致力于实现高质量体验和灵活性。本文首次提出了一种新颖的资源调度架构，通过构建三个大语言模型代理来将任意用户的语音请求转化为资源分配向量。通过针对电动汽车充电的典型语音请求进行测试，结果表明所提出的架构的高效性。

Jun, 2024

OptLLM: 大型语言模型的最佳查询分配

我们提出了一个针对大型语言模型的成本效益查询分配问题的框架，名为 OptLLM，通过使用多标签分类模型进行性能预测，生成一系列优化解决方案，旨在满足用户的预算限制和性能偏好，包括最大化准确性和最小化成本。OptLLM 在各种类型的任务上进行了广泛的实验，包括文本分类、问答、情感分析、推理和日志解析，实验证明 OptLLM 在降低成本 2.40% 至 49.18% 的同时实现与最佳大型语言模型相同的准确性，相比其他多目标优化算法，OptLLM 在相同成本下提高 2.94% 至 69.05% 的准确性或节省 8.79% 至 95.87% 的成本并保持最高可达准确性。

May, 2024

低延迟大型语言模型的 LiveMind：具有同时推理的特性

本文介绍了一种用于大型语言模型（LLMs）的新型低延迟推断框架，使 LLMs 能够使用不完整的提示进行推断，并通过重新分配计算过程到提示输入阶段，实现了大幅度的延迟降低，从而显著提高用户与 LLMs 的交互体验。该框架灵活地管理模型对流式提示的可见性，允许它从不完整的提示中进行推断或等待附加提示。与使用完整提示的传统推断方法相比，我们的方法在 MMLU-Pro 数据集上表现出平均响应延迟减少 59％，同时保持相当的准确性。此外，我们的框架促进了不同模型之间的协同推断和输出。通过使用 LLM 进行推断和使用小型语言模型（SLM）进行输出，与 SLM 基线相比，我们在 MMLU-Pro 数据集上实现了平均响应延迟减少 68％，准确性提高了 5.5％。对于超过 20 个句子的长提示，响应延迟可以降低高达 93％。

Jun, 2024

混合 LLM：成本高效且质量感知的查询路由

本研究提出一种混合推理方法，结合大型语言模型和小型模型的优势，通过路由器根据预测的查询难度和期望的质量水平将查询分配给相应的模型，以在成本节约和保持质量之间进行动态调整，实验结果表明能够减少高质量模型的调用次数达到 40%，且不影响响应质量。

Apr, 2024

LLM-PQ：利用多阶段感知分割和自适应量化为异构集群提供 LLM

LLM-PQ 是一个提倡自适应模型量化和阶段感知模型分区的系统，旨在通过在异构 GPU 集群上提高 LLM 的服务效率。通过混合精度模型量化、阶段感知模型分区和微批量大小的决策，LLM-PQ 大大提高了推理吞吐量，同时满足用户指定的模型质量目标。对 11 个不同集群上的生产推理工作负载进行的大量实验表明，LLM-PQ 在推理上实现了高达 2.88 倍（平均 2.26 倍）的吞吐量改进，显示出较其他最先进方法的巨大优势。

Mar, 2024