S2D：排序的推测解码，用于更高效部署嵌套大型语言模型

Jul, 2024

S2D：排序的推测解码，用于更高效部署嵌套大型语言模型

S2D: Sorted Speculative Decoding For More Efficient Deployment of Nested Large Language Models

Parsa Kavehzadeh, Mohammadreza Pourreza, Mojtaba Valipour, Tinashu Zhu, Haoli Bai...

TL;DR部署异步大型语言模型（LLMs）的代价高昂，为了减少成本，本文介绍了一种新的多目标场景的 Draft 模型部署方法，并提出了一种更高效的排序 Speculative Decoding 机制，该方法在多目标环境下优于基线模型。

Abstract

Deployment of autoregressive large language models (LLMs) is costly, and as these models increase in size, the associated costs will become even more considerable. Consequently, different methods have been proposed to accelerate the token generation process and reduce costs.

autoregressive large language models speculative decoding multi-target scenario deployment costs draft models

发现论文，激发创造

探讨推测性解码

使用分析模型来选择适合特定工作负载的合适草稿模型，以提高推理速度并设计适用于 LLaMA-65B 的新草稿模型，能够提供比现有草稿模型高 30% 的吞吐量。

Feb, 2024

SDSAT：通过语义自适应标记的推理进行推测解码的加速

通过引入具有语义自适应能力的令牌，提出一种用于大型语言模型（LLM）的加速方案（SDSAT）。该方案通过细调模型和使用训练方法，以及使用新的生成策略，能够在不影响模型准确性的情况下，提高模型生成草稿令牌的准确性，并且在 CodeLlama-13B 和 7B 模型上实验，分别获得了超过 3.5X 和 3.0X 的加速效果。

Mar, 2024

利用 Goodput 优化为大型语言模型提供服务的概念解码

减少大型语言模型（LLM）的推理延迟至关重要，我们开发了 SmartSpec 动态框架，根据一个新的名为 goodput 的度量来动态确定每个请求的最佳推测长度，从而将平均请求延迟降低了多达 3.2 倍。

Jun, 2024

递归推测解码：通过无替换抽样加速 LLM 推理

递归推测解码是一种基于树的方法，利用抽样生成多样性的草稿令牌序列来加速大型语言模型，从而在固定的草稿序列长度和计算预算下取得了优越性能。

Feb, 2024

在线投机解码

通过在线推理和训练预估模型，我们提出了一种在线推理预估解码技术，用于加速大型语言模型的推理过程，并减少延迟。

Oct, 2023

大语言模型推理中的效率增强：专门解码的综合调查

通过提出实例、讨论关键方面，总结了 Speculative Decoding 的定义、技术、挑战和未来方向，以加速 LLM 推理过程。

Jan, 2024

多候选猜测解码

大型语言模型在各种自然语言处理任务中展现出令人印象深刻的能力，但是自回归生成文本却非常耗时。提高速度的一个方法是进行猜测性解码，即由快速的草稿模型生成候选分段（一系列令牌），然后由目标模型并行验证。然而，候选标记的接受率受到模型、数据集和解码设置等多个因素的限制。本文提出了从草稿模型中采样多个候选分段，并将它们分批进行验证的方法。我们设计了高效的多候选验证算法，同时保持目标模型的分布。我们的方法在多个数据集和模型上都展现出显著的接受率改进，始终优于标准的猜测性解码。

Jan, 2024

投机的对比解码

通过对大型语言模型进行推测性对比解码，提高了生成质量的同时节省了计算资源。

Nov, 2023

关于多模态大型语言模型的推理解码

通过在 MLLMs 中应用推测解码，特别是 LLaVA 7B，我们展示了一个仅语言模型可以作为推测解码的优秀起草模型，绕过了起草模型中图像令牌和其相关处理组件的需求。我们的实验证明，推测解码可以在三个不同任务中实现高达 2.37 倍的内存速度提升，使用的是我们从头开始训练的 115M 参数语言模型。此外，我们还引入了一个紧凑的 LLaVA 起草模型，其中包含图像适配器，在图像字幕生成方面表现出边际性能增益，并在其他任务中保持可比较的结果。

Apr, 2024

投机式流处理：高速 LLM 推理无需辅助模型

Speculative Streaming 是一种单一模型的推测解码方法，通过将起草融入目标模型，将微调目标从下一个标记预测改为未来 n-gram 预测的目标，以在总结、结构查询和语义表示等多个任务中提高 1.8-3.1 倍的解码速度，而不损失生成质量。此外，Speculative Streaming 在参数效率方面表现出色，与 Medusa-style 架构相比，使用的额外参数较少，适用于资源受限的设备。

Feb, 2024