SpecInfer: 使用推测推理和令牌树验证加速生成式语言模型服务

May, 2023

SpecInfer: 使用推测推理和令牌树验证加速生成式语言模型服务

SpecInfer: Accelerating Generative LLM Serving with Speculative Inference and Token Tree Verification

Xupeng Miao, Gabriele Oliaro, Zhihao Zhang, Xinhao Cheng, Zeyu Wang...

TL;DR本文介绍了 SpecInfer，一种使用预测推断和令牌树验证加速生成式大型语言模型推断的 LLM 服务系统，其使用多个小型语言模型共同预测 LLM 的输出，并使用一种新的基于树的并行解码机制验证所有候选的令牌序列的正确性。通过使用 LLM 作为令牌树验证器，而不是增量解码器，SpecInfer 显着降低了用于服务 LLM 的端到端延迟和计算要求，同时确保保持模型质量。

Abstract

The high computational and memory requirements of generative large language models (LLMs) make it challenging to serve them quickly and cheaply. This paper introduces specinfer, an LLM serving system that accelerates generative LLM inference with speculative inference and →

large language models specinfer generative llms token tree verification parallel decoding mechanism

发现论文，激发创造

SpecExec: 消费设备上基于大规模并行推测解码的交互式 LLM 推理

使用 SpecExec 方法，在消费级 GPU 上以每秒 4-6 个令牌（4 位量化）或每秒 2-3 个令牌（16 位权重）的速度对包含 50 多亿参数的大语言模型进行了推理。

Jun, 2024

高效译码的投机流水线执行

通过使用预测值，基于 Transformer 架构的生成式大型语言模型 (SPEED) 能够并行地执行当前令牌以及多个未来令牌，从而提高推理效率，减少延迟，并在保持模型准确性的同时实现支持参数共享的更深层次解码器的训练。

Oct, 2023

加速 LLM 推断的分阶段推测解码

利用大型语言模型（LLM）的最新进展，我们提出了一种新颖的算法 —— 分阶段投机性解码，以加速小批量、设备上的 LLM 推断。我们通过改进投机性解码的前期工作解决了小批量推断的低算术密度问题。首先，我们将投机性批量重新组织为一棵树，这降低了生成成本并增加了每批预期的标记数。其次，我们添加了第二阶段的投机性解码。综合而言，我们在完美地保留输出质量的同时，将单批解码延迟降低了 3.16 倍，使用了一个 762M 参数的 GPT-2-L 模型。

Aug, 2023

使用混合标记 / 嵌入推测器加速生产 LLM

设计和训练新型的推测解码草稿模型，通过在上下文向量和样本标记上条件化草稿预测，可以高效预测高质量的 n-gram，以提高大型语言模型在生产环境中的推理速度。

Apr, 2024

投机式流处理：高速 LLM 推理无需辅助模型

Speculative Streaming 是一种单一模型的推测解码方法，通过将起草融入目标模型，将微调目标从下一个标记预测改为未来 n-gram 预测的目标，以在总结、结构查询和语义表示等多个任务中提高 1.8-3.1 倍的解码速度，而不损失生成质量。此外，Speculative Streaming 在参数效率方面表现出色，与 Medusa-style 架构相比，使用的额外参数较少，适用于资源受限的设备。

Feb, 2024

超越投机游戏：大型语言模型中投机执行调查

通过引入推测执行的概念，对大型语言模型进行推理加速，提升解码速度，该研究综述了当前推测执行在大型语言模型中的应用，并提出了关键挑战和未来发展方向。

Apr, 2024

迈向快速多语言 LLM 推断：投机式解码和专业的起草机

大语言模型在自然语言处理中产生了革命性的作用，并且扩展了它在不同商业应用中的适用性。然而，这些模型在多语言环境中的部署受到推理时间的限制。为了缓解这一挑战，本文探讨了使用推测解码的助理模型的训练方法，其中助理模型用于草拟未来的令牌，并通过目标语言模型进行验证。我们表明，通过有针对性的预训练和微调策略优化的专门针对语言的草拟模型，在推理时间上显著减少了时间，相较于以前的方法。我们在推理时间、领域外优化以及 GPT-4o 评估等方面验证了这些模型。

Jun, 2024

通过推测解码从 Transformer 中实现快速推断

本文提出了一种名为 “speculative decoding” 的算法，通过逐步并行地计算，采样自动回归模型可更快，同时采用了采样方法和一些新的技术，使得不改变分布的情况下，从大模型中精确解码变得更快，从而实现了不需要重新训练或架构更改即可支持现有模型的加速。在 T5-XXL 模型上的比较表明，该方法可以实现 2-3 倍的加速，而输出仍然与标准 T5X 实现相同。

Nov, 2022

利用 Goodput 优化为大型语言模型提供服务的概念解码

减少大型语言模型（LLM）的推理延迟至关重要，我们开发了 SmartSpec 动态框架，根据一个新的名为 goodput 的度量来动态确定每个请求的最佳推测长度，从而将平均请求延迟降低了多达 3.2 倍。

Jun, 2024

大语言模型推理中的效率增强：专门解码的综合调查

通过提出实例、讨论关键方面，总结了 Speculative Decoding 的定义、技术、挑战和未来方向，以加速 LLM 推理过程。

Jan, 2024