自适应草稿长度的并行推测性解码

Aug, 2024

自适应草稿长度的并行推测性解码

Parallel Speculative Decoding with Adaptive Draft Length

Tianyu Liu, Yun Li, Qitan Lv, Kai Liu, Jianchen Zhu...

TL;DR本研究解决了现有推测性解码方法中目标模型与草稿模型异步执行导致的互等问题。提出的PEARL框架通过预验证和后验证策略并行化草稿阶段和验证阶段，实现了适应性草稿长度，从而显著提高了解码速度，实验表明相较于传统方法，速度提升可达3.79倍。

Abstract

Speculative Decoding (SD), where an extra draft model is employed to provide multiple \textit{draft} tokens first and then the original target model verifies these tokens in parallel, has shown great power for LLM Infer

发现论文，激发创造

加速 LLM 推断的分阶段推测解码

利用大型语言模型（LLM）的最新进展，我们提出了一种新颖的算法——分阶段投机性解码，以加速小批量、设备上的LLM推断。我们通过改进投机性解码的前期工作解决了小批量推断的低算术密度问题。首先，我们将投机性批量重新组织为一棵树，这降低了生成成本并增加了每批预期的标记数。其次，我们添加了第二阶段的投机性解码。综合而言，我们在完美地保留输出质量的同时，将单批解码延迟降低了3.16倍，使用了一个762M参数的GPT-2-L模型。

Aug, 2023

探讨推测性解码

使用分析模型来选择适合特定工作负载的合适草稿模型，以提高推理速度并设计适用于LLaMA-65B的新草稿模型，能够提供比现有草稿模型高30%的吞吐量。

Feb, 2024

递归推测解码：通过无替换抽样加速 LLM 推理

递归推测解码是一种基于树的方法，利用抽样生成多样性的草稿令牌序列来加速大型语言模型，从而在固定的草稿序列长度和计算预算下取得了优越性能。

Feb, 2024

用于加速推测解码的最佳块级草稿验证

我们提出了一个更好的草稿验证算法，通过块级最优输送问题来实现，与令牌级别验证算法相比，在一系列任务和数据集中节约了墙钟速度。

Mar, 2024

超越投机游戏：大型语言模型中投机执行调查

通过引入推测执行的概念，对大型语言模型进行推理加速，提升解码速度，该研究综述了当前推测执行在大型语言模型中的应用, 并提出了关键挑战和未来发展方向。

Apr, 2024

加速动态猜测长度的猜测解码

DISCO是一种动态调整推断长度优化方法，通过使用分类器在每个迭代中动态调整推断长度，从而提供推断质量的同时实现平均10.3%的速度增益。

May, 2024

SpecDec++：通过自适应候选长度提升推测解码能力

通过使用较小且更快的草稿模型，推测解码可减少目标大型语言模型的推理延迟。本文以候选长度K作为超参数进行研究，并将其形式化为马尔科夫决策过程，理论上证明了最优策略采用阈值策略，在预测的被拒概率超过阈值时终止当前推测。基于这一理论，我们提出了SpecDec++，它通过使用训练好的接受概率预测模块来自适应地确定候选长度。在实验中，我们将SpecDec++应用于llama-2-chat模型对Alpaca、GSM8K和HumanEval数据集进行测试，结果显示我们的自适应方法可以实现2.04倍至2.26倍的加速。

May, 2024

通过提前退出进行投机解码以加速LLM 推断，并采用汤普森抽样控制机制

在大型语言模型中，我们提出了一种新的方法，即具有无损加速的早期退出推理（EESD），通过在前N层后引入早期退出结构，利用语言模型的一部分生成初步令牌，并通过自蒸馏方法提高初步令牌的质量。我们还引入了一种新的采样机制，利用汤普森采样调节生成过程，自动确定每一轮的初步令牌数量。实验结果表明，与先前的方法相比，我们的方法在解码令牌时具有明显的加速效果。

Jun, 2024

OPT-Tree：具有自适应草稿树结构的猜测解码

OPT-Tree算法通过构建自适应和可扩展的缓冲树结构，实现了一步生成多个标记，从而解决了自回归语言模型中推理效率受限的问题。该算法优于现有的缓冲结构，与自回归解码相比，实现了最高3.2倍的加速比。

Jun, 2024

动态宽度推测性束解码用于高效大型语言模型推理

本文探讨了大型语言模型推理过程中低效性的问题，提出了一种新的动态宽度推测性束解码（DSBD）方法，以应对推测解码与束采样融合中的诸多挑战。该方法通过优化束的数量和改进验证机制，提高了推理速度并保证了输出质量，具有重要的潜在应用价值。

Sep, 2024