通过推测解码实现更快级联

May, 2024

Faster Cascades via Speculative Decoding

PDF

Harikrishna Narasimhan, Wittawat Jitkrittum, Ankit Singh Rawat, Seungyeon Kim, Neha Gupta...

TL;DR设计新的推测性串行技术，通过推测执行实现其推迟规则，以获得比串行和推测解码基线更好的成本 - 质量平衡。

Abstract

cascades and speculative decoding are two common approaches to improving language models' →

cascades speculative decoding inference efficiency language models speculative cascading techniques

发现论文，激发创造

级联推测草稿以提升 LLM 推理速度

利用级联的投机式编码方法，以提高大型语言模型的效率，通过引入垂直级联和水平级联来消除自回归生成和提高草拟中的时间分配的效率，从而进一步提高了 72% 的加速度。

Dec, 2023

探讨推测性解码

使用分析模型来选择适合特定工作负载的合适草稿模型，以提高推理速度并设计适用于 LLaMA-65B 的新草稿模型，能够提供比现有草稿模型高 30% 的吞吐量。

Feb, 2024

语言模型级联：标记级别的不确定性和更多

通过对 FLAN-T5 模型在一系列自然语言基准测试中进行实验，我们表明，通过学习后续的推迟规则来结合较小模型的嵌入和较大模型的中间层，可以在整体成本与质量的权衡中实现额外的提升。

Apr, 2024

大语言模型推理中的效率增强：专门解码的综合调查

通过提出实例、讨论关键方面，总结了 Speculative Decoding 的定义、技术、挑战和未来方向，以加速 LLM 推理过程。

Jan, 2024

通过推测解码从 Transformer 中实现快速推断

本文提出了一种名为 “speculative decoding” 的算法，通过逐步并行地计算，采样自动回归模型可更快，同时采用了采样方法和一些新的技术，使得不改变分布的情况下，从大模型中精确解码变得更快，从而实现了不需要重新训练或架构更改即可支持现有模型的加速。在 T5-XXL 模型上的比较表明，该方法可以实现 2-3 倍的加速，而输出仍然与标准 T5X 实现相同。

Nov, 2022

投机式流处理：高速 LLM 推理无需辅助模型

Speculative Streaming 是一种单一模型的推测解码方法，通过将起草融入目标模型，将微调目标从下一个标记预测改为未来 n-gram 预测的目标，以在总结、结构查询和语义表示等多个任务中提高 1.8-3.1 倍的解码速度，而不损失生成质量。此外，Speculative Streaming 在参数效率方面表现出色，与 Medusa-style 架构相比，使用的额外参数较少，适用于资源受限的设备。

Feb, 2024

多候选猜测解码

大型语言模型在各种自然语言处理任务中展现出令人印象深刻的能力，但是自回归生成文本却非常耗时。提高速度的一个方法是进行猜测性解码，即由快速的草稿模型生成候选分段（一系列令牌），然后由目标模型并行验证。然而，候选标记的接受率受到模型、数据集和解码设置等多个因素的限制。本文提出了从草稿模型中采样多个候选分段，并将它们分批进行验证的方法。我们设计了高效的多候选验证算法，同时保持目标模型的分布。我们的方法在多个数据集和模型上都展现出显著的接受率改进，始终优于标准的猜测性解码。

Jan, 2024

投机的对比解码

通过对大型语言模型进行推测性对比解码，提高了生成质量的同时节省了计算资源。

Nov, 2023

利用投机抽样加速大型语言模型解码

介绍了一种基于 “假设采样” 的算法，将 Transformer 解码加速 2 至 2.5 倍，同时保持样本质量和预测分布。

Feb, 2023

超越投机游戏：大型语言模型中投机执行调查

通过引入推测执行的概念，对大型语言模型进行推理加速，提升解码速度，该研究综述了当前推测执行在大型语言模型中的应用，并提出了关键挑战和未来发展方向。

Apr, 2024