SARATHI：通过分块填充与顺便解码提高LLM推理效率

Aug, 2023

SARATHI：通过分块填充与顺便解码提高LLM推理效率

SARATHI: Efficient LLM Inference by Piggybacking Decodes with Chunked Prefills

Amey Agrawal, Ashish Panwar, Jayashree Mohan, Nipun Kwatra, Bhargav S. Gulavani...

TL;DRSARATHI improves Large Language Model (LLM) inference performance by employing chunked-prefills and decode-maximal batching, resulting in significant throughput improvements and reduced pipeline bubbles when used with pipeline parallelism on GPUs.

Abstract

large language model (LLM) inference consists of two distinct phases - prefill phase which processes the input prompt and decode phase which generates output tokens autoregressively. While the prefill phase effec

发现论文，激发创造

加速 LLM 推断的分阶段推测解码

利用大型语言模型（LLM）的最新进展，我们提出了一种新颖的算法——分阶段投机性解码，以加速小批量、设备上的LLM推断。我们通过改进投机性解码的前期工作解决了小批量推断的低算术密度问题。首先，我们将投机性批量重新组织为一棵树，这降低了生成成本并增加了每批预期的标记数。其次，我们添加了第二阶段的投机性解码。综合而言，我们在完美地保留输出质量的同时，将单批解码延迟降低了3.16倍，使用了一个762M参数的GPT-2-L模型。

Aug, 2023

大型语言模型在服务中采用预测解码和批处理的协同效应

对于大型语言模型（LLMs）如GPT，提出了一种新的自适应推测解码策略，通过批处理和推测解码技术提高GPU硬件利用率，并在各种LLM模型和GPU架构上进行了广泛的特征分析，结果显示新方法能够达到与固定长度推测解码方案相等或更好的性能。

Oct, 2023

在CPU上高效LLM推断

本论文提出了一种有效的方法，可以更高效地部署大型语言模型，通过自动INT4纯权重量化流和设计具有高度优化内核的特殊LLM运行时，在CPU上加速LLM推理，展示了该方法对包括Llama2、Llama、GPT-NeoX等流行LLM的普适性，并显示了在CPU上的极高推理效率。

Nov, 2023

基于英特尔GPU的高效LLM推理解决方案

提议了一种高效的大型语言模型推理解决方案，通过简化模型结构、融合数据移动和逐元素操作、使用段落KV缓存策略等方法降低系统延迟并提高吞吐量，在Intel GPU上相对于标准HuggingFace实现，能够实现高达7倍的令牌延迟降低和27倍的吞吐量提升。

Dec, 2023

利用前瞻解码打破LLM推断的顺序依赖性

使用准确并行的预读解码算法加速大型语言模型的自回归解码，从而减少总解码步骤，提高解码速度并充分发挥现代加速器的并行处理能力。

Feb, 2024

使用Sarathi-Serve调节LLM推理中的吞吐量-延迟平衡

介绍了一种高效的LLM推理调度器Sarathi-Serve，通过利用来自Sarathi的分块预填充技术，创建无停顿的调度，可以在正在进行的解码过程中批量添加新的请求，从而提高吞吐量，同时将对延迟的影响降至最低。

Mar, 2024

SpecExec: 消费设备上基于大规模并行推测解码的交互式 LLM 推理

使用SpecExec方法，在消费级GPU上以每秒4-6个令牌（4位量化）或每秒2-3个令牌（16位权重）的速度对包含50多亿参数的大语言模型进行了推理。

Jun, 2024

关于在CPU上对大型语言模型进行推断性能优化的研究

该研究介绍了一种在CPU上加速大型语言模型的易于部署推理性能优化解决方案，并针对常用模型进行了定制优化。

Jul, 2024

PipeInfer：使用异步流水线推测加速LLM推理

在这篇论文中，我们提出了PipeInfer，一种通过连续异步推理和提前推理取消来减少词间延迟和提高系统利用率的管道化推理加速技术，以降低低推测接受率和低带宽互联的影响，并且在单请求场景下具有更好的容错性，相比于标准推测推理，PipeInfer的生成速度提高了2.15倍。

Jul, 2024

LLMServingSim：用于大规模LLM推理服务的硬件/软件联合仿真基础设施

本研究解决了现有大语言模型（LLM）推理服务仿真基础设施缺乏动态工作负载变化建模及算法冗余利用的问题。提出的LLMServingSim工具通过迭代粒度模拟LLM服务，显著提高了仿真速度，并展示出与真实系统性能行为接近的结果。此研究为未来LLM推理服务系统设计提供了有效的仿真支持。

Aug, 2024