多候选猜测解码

Jan, 2024

Multi-Candidate Speculative Decoding

Sen Yang, Shujian Huang, Xinyu Dai, Jiajun Chen

TL;DR大型语言模型在各种自然语言处理任务中展现出令人印象深刻的能力，但是自回归生成文本却非常耗时。提高速度的一个方法是进行猜测性解码，即由快速的草稿模型生成候选分段（一系列令牌），然后由目标模型并行验证。然而，候选标记的接受率受到模型、数据集和解码设置等多个因素的限制。本文提出了从草稿模型中采样多个候选分段，并将它们分批进行验证的方法。我们设计了高效的多候选验证算法，同时保持目标模型的分布。我们的方法在多个数据集和模型上都展现出显著的接受率改进，始终优于标准的猜测性解码。

Abstract

large language models have shown impressive capabilities across a variety of NLP tasks, yet their generating text autoregressively is time-consuming. One way to speed them up is speculative decoding, which genera

large language models speculative decoding candidate segments verification acceptance rates

发现论文，激发创造

利用投机抽样加速大型语言模型解码

介绍了一种基于 “假设采样” 的算法，将 Transformer 解码加速 2 至 2.5 倍，同时保持样本质量和预测分布。

Feb, 2023

探讨推测性解码

使用分析模型来选择适合特定工作负载的合适草稿模型，以提高推理速度并设计适用于 LLaMA-65B 的新草稿模型，能够提供比现有草稿模型高 30% 的吞吐量。

Feb, 2024

通过推测解码从 Transformer 中实现快速推断

本文提出了一种名为 “speculative decoding” 的算法，通过逐步并行地计算，采样自动回归模型可更快，同时采用了采样方法和一些新的技术，使得不改变分布的情况下，从大模型中精确解码变得更快，从而实现了不需要重新训练或架构更改即可支持现有模型的加速。在 T5-XXL 模型上的比较表明，该方法可以实现 2-3 倍的加速，而输出仍然与标准 T5X 实现相同。

Nov, 2022

SpecDec++：通过自适应候选长度提升推测解码能力

通过使用较小且更快的草稿模型，推测解码可减少目标大型语言模型的推理延迟。本文以候选长度 K 作为超参数进行研究，并将其形式化为马尔科夫决策过程，理论上证明了最优策略采用阈值策略，在预测的被拒概率超过阈值时终止当前推测。基于这一理论，我们提出了 SpecDec++，它通过使用训练好的接受概率预测模块来自适应地确定候选长度。在实验中，我们将 SpecDec++ 应用于 llama-2-chat 模型对 Alpaca、GSM8K 和 HumanEval 数据集进行测试，结果显示我们的自适应方法可以实现 2.04 倍至 2.26 倍的加速。

May, 2024

EMS-SD：高效的多样本猜测解码用于加速大型语言模型

通过提出一种新方法，解决多样本推断速度提高中可变数量的 token 导致效率下降的问题，无需增加计算和内存开销，并且可以处理不一致的样本预测 token 的情况。

May, 2024

大语言模型推理中的效率增强：专门解码的综合调查

通过提出实例、讨论关键方面，总结了 Speculative Decoding 的定义、技术、挑战和未来方向，以加速 LLM 推理过程。

Jan, 2024

PaSS：并行推测采样

通过使用并行解码，我们提出了一种使用单个模型从多个分词进行生成的方法，无需额外的计算成本或第二个模型，并表现出了令人期待的性能（最多可提高 30% 的速度），只需要最少 O (d_{emb}) 个附加参数。

Nov, 2023

关于多模态大型语言模型的推理解码

通过在 MLLMs 中应用推测解码，特别是 LLaVA 7B，我们展示了一个仅语言模型可以作为推测解码的优秀起草模型，绕过了起草模型中图像令牌和其相关处理组件的需求。我们的实验证明，推测解码可以在三个不同任务中实现高达 2.37 倍的内存速度提升，使用的是我们从头开始训练的 115M 参数语言模型。此外，我们还引入了一个紧凑的 LLaVA 起草模型，其中包含图像适配器，在图像字幕生成方面表现出边际性能增益，并在其他任务中保持可比较的结果。

Apr, 2024

SpecTr: 基于最优传输的快速推理解码

通过将自回归抽样与猜测解码相结合，提出了一种理论上基于最优传输的规范解码方法，通过使用新的选择算法在保证解码质量的情况下获得解码速度的提升。

Oct, 2023

投机式流处理：高速 LLM 推理无需辅助模型

Speculative Streaming 是一种单一模型的推测解码方法，通过将起草融入目标模型，将微调目标从下一个标记预测改为未来 n-gram 预测的目标，以在总结、结构查询和语义表示等多个任务中提高 1.8-3.1 倍的解码速度，而不损失生成质量。此外，Speculative Streaming 在参数效率方面表现出色，与 Medusa-style 架构相比，使用的额外参数较少，适用于资源受限的设备。

Feb, 2024