Preble: 高效的分布式提示调度方法用于LLM服务

May, 2024

Preble: 高效的分布式提示调度方法用于LLM服务

Preble: Efficient Distributed Prompt Scheduling for LLM Serving

Vikranth Srivatsa, Zijian He, Reyna Abhyankar, Dongming Li, Yiying Zhang

TL;DR本研究提出了Preble，这是首个以共享提示为目标并进行优化的分布式大型语言模型服务平台。我们对五种常见工作负载进行了研究，并基于研究结果设计了一个分布式调度系统，同时优化计算重用和负载平衡。我们对Preble在两个开源语言模型上的真实工作负载和请求到达模式下使用2到8个GPU的性能评估结果表明，Preble的平均延迟比现有技术提高了1.5倍至14.5倍，p99提高了2倍至10倍。

Abstract

Prompts to large language models (LLMs) have evolved beyond simple user questions. For LLMs to solve complex problems, today's practices include domain-specific instructions, illustration of tool usages, and long context, such as textbook chapters in prompts. As such, many parts of pro

发现论文，激发创造

大语言模型快速分布式推理服务

FastServe是一种分布式推理服务系统，利用预emption技术在输出单词级别上最小化了Large language models的inference时间，并采用GPU内存管理机制，与现有解决方案相比可将平均和tail JCT分别提高了5.1倍和6.4倍。

May, 2023

模块化注意力复用技术用于低延迟推理

使用Prompt Cache方法，可以通过在不同的大型语言模型提示之间重复使用注意力状态来加快推理速度。这种方法通过预先计算和存储输入提示中经常出现的文本段的注意力状态，以在用户提示中高效地重用它们。在多个大型语言模型上的评估显示，Prompt Cache显著减少了从第一个标记到输出的延迟，尤其对于基于文档的问答和推荐等较长的提示。改进范围从基于GPU的推理中的8倍到基于CPU的推理中的60倍，同时保持输出准确性，无需修改模型参数。

Nov, 2023

SpotServe: 在可中途终止的实例上为生成式大型语言模型提供服务

通过使用可中止的GPU实例来降低大型语言生成模型的运行成本，本文提出了SpotServe，一个在可中止实例上实现快速、可靠且经济高效地提供生成型语言模型服务的分布式系统。它采用动态自适应并行化配置、最小化实例迁移成本的迁移规划算法，并引入了基于状态的推断恢复机制，从而大幅降低P99尾延迟，并节省54％的运行成本。

Nov, 2023

大型语言模型的公平性服务

该论文介绍了基于成本函数的LLM服务公平性定义，并提出了一种新颖的调度算法，基于连续批处理机制的Virtual Token Counter（VTC），通过大量实验验证了VTC在确保公平性方面的卓越性能，特别是相对于其他基线方法在各种条件下的不足之处。

Dec, 2023

基于需求定制的LMLs服务

通过引入层级分布式的大型语言模型（LLM）架构，提高LLM在异构计算平台上的可访问性和可部署性，实现按需访问和定制化服务，并在用户与应用需求之间取得最佳权衡，推动人工智能技术的进步。

Jan, 2024

使用中继注意力实现高效的大型语言模型与长系统提示的服务

通过一种名为RelayAttention的算法，该论文提出了一种提高大型语言模型（LLM）服务效率的方法，解决了长系统提示导致的吞吐量/延迟瓶颈问题，该算法通过从DRAM准确一次性读取输入令牌批次的隐藏状态，从而消除了系统提示的冗余。

Feb, 2024

使用Sarathi-Serve调节LLM推理中的吞吐量-延迟平衡

介绍了一种高效的LLM推理调度器Sarathi-Serve，通过利用来自Sarathi的分块预填充技术，创建无停顿的调度，可以在正在进行的解码过程中批量添加新的请求，从而提高吞吐量，同时将对延迟的影响降至最低。

Mar, 2024

Llumnix: 大规模语言模型服务的动态调度

Llumnix是一种用于大型语言模型（LLMs）服务的系统，通过在多个模型实例之间进行运行时重新调度，以应对异构且不可预测的请求，从而改善尾延迟，加快高优先级请求，并实现成本节省。

Jun, 2024

通过学习排序实现高效的LLM调度

该研究针对大型语言模型（LLM）推理中的调度问题，提出了一种新的基于学习排序的调度方法，以解决传统先到先服务（FCFS）策略引发的阻塞问题。研究表明，通过预测请求批次中输出长度的相对排名，可以显著改善调度效率，实现了聊天机器人服务延迟降低2.8倍和合成数据生成吞吐量提高6.5倍的显著性能提升。

Aug, 2024

不要停下我：基于嵌入的LLM调度

本研究针对大语言模型(LLM)调度中存在的请求完成时间长的问题，提出了一种新方法TRAIL。此方法利用模型自身生成的嵌入，预测运行请求的剩余长度，并结合有限的抢占机制，优化了资源利用率。实验结果表明，该方法有效减少了系统的内存开销，并提高了调度效率，具有显著的实际应用价值。

Oct, 2024