大型语言模型在服务中采用预测解码和批处理的协同效应

Oct, 2023

大型语言模型在服务中采用预测解码和批处理的协同效应

The Synergy of Speculative Decoding and Batching in Serving Large Language Models

Qidong Su, Christina Giannoula, Gennady Pekhimenko

TL;DR对于大型语言模型（LLMs）如 GPT，提出了一种新的自适应推测解码策略，通过批处理和推测解码技术提高 GPU 硬件利用率，并在各种 LLM 模型和 GPU 架构上进行了广泛的特征分析，结果显示新方法能够达到与固定长度推测解码方案相等或更好的性能。

Abstract

large language models (LLMs) like GPT are state-of-the-art text generation models that provide significant assistance in daily routines. However, LLM execution is inherently sequential, since they only produce one token at a time, thus incurring low hardware utilization on modern GPUs.

large language models gpu hardware utilization batching speculative decoding adaptive speculation decoding strategy

发现论文，激发创造

BASS: 批处理优化注意力的推测采样

该论文描述了一种批处理的推测解码系统，在多序列生成延迟方面达到了最新的技术水平，并在时间预算内展示出卓越的 GPU 利用率和生成质量。

Apr, 2024

加速 LLM 推断的分阶段推测解码

利用大型语言模型（LLM）的最新进展，我们提出了一种新颖的算法 —— 分阶段投机性解码，以加速小批量、设备上的 LLM 推断。我们通过改进投机性解码的前期工作解决了小批量推断的低算术密度问题。首先，我们将投机性批量重新组织为一棵树，这降低了生成成本并增加了每批预期的标记数。其次，我们添加了第二阶段的投机性解码。综合而言，我们在完美地保留输出质量的同时，将单批解码延迟降低了 3.16 倍，使用了一个 762M 参数的 GPT-2-L 模型。

Aug, 2023

利用 Goodput 优化为大型语言模型提供服务的概念解码

减少大型语言模型（LLM）的推理延迟至关重要，我们开发了 SmartSpec 动态框架，根据一个新的名为 goodput 的度量来动态确定每个请求的最佳推测长度，从而将平均请求延迟降低了多达 3.2 倍。

Jun, 2024

超越投机游戏：大型语言模型中投机执行调查

通过引入推测执行的概念，对大型语言模型进行推理加速，提升解码速度，该研究综述了当前推测执行在大型语言模型中的应用，并提出了关键挑战和未来发展方向。

Apr, 2024

探讨推测性解码

使用分析模型来选择适合特定工作负载的合适草稿模型，以提高推理速度并设计适用于 LLaMA-65B 的新草稿模型，能够提供比现有草稿模型高 30% 的吞吐量。

Feb, 2024

关于多模态大型语言模型的推理解码

通过在 MLLMs 中应用推测解码，特别是 LLaVA 7B，我们展示了一个仅语言模型可以作为推测解码的优秀起草模型，绕过了起草模型中图像令牌和其相关处理组件的需求。我们的实验证明，推测解码可以在三个不同任务中实现高达 2.37 倍的内存速度提升，使用的是我们从头开始训练的 115M 参数语言模型。此外，我们还引入了一个紧凑的 LLaVA 起草模型，其中包含图像适配器，在图像字幕生成方面表现出边际性能增益，并在其他任务中保持可比较的结果。

Apr, 2024

高效译码的投机流水线执行

通过使用预测值，基于 Transformer 架构的生成式大型语言模型 (SPEED) 能够并行地执行当前令牌以及多个未来令牌，从而提高推理效率，减少延迟，并在保持模型准确性的同时实现支持参数共享的更深层次解码器的训练。

Oct, 2023

SpecExec: 消费设备上基于大规模并行推测解码的交互式 LLM 推理

使用 SpecExec 方法，在消费级 GPU 上以每秒 4-6 个令牌（4 位量化）或每秒 2-3 个令牌（16 位权重）的速度对包含 50 多亿参数的大语言模型进行了推理。

Jun, 2024

大语言模型推理中的效率增强：专门解码的综合调查

通过提出实例、讨论关键方面，总结了 Speculative Decoding 的定义、技术、挑战和未来方向，以加速 LLM 推理过程。

Jan, 2024

多候选猜测解码

大型语言模型在各种自然语言处理任务中展现出令人印象深刻的能力，但是自回归生成文本却非常耗时。提高速度的一个方法是进行猜测性解码，即由快速的草稿模型生成候选分段（一系列令牌），然后由目标模型并行验证。然而，候选标记的接受率受到模型、数据集和解码设置等多个因素的限制。本文提出了从草稿模型中采样多个候选分段，并将它们分批进行验证的方法。我们设计了高效的多候选验证算法，同时保持目标模型的分布。我们的方法在多个数据集和模型上都展现出显著的接受率改进，始终优于标准的猜测性解码。

Jan, 2024