SDSAT：通过语义自适应标记的推理进行推测解码的加速

Mar, 2024

SDSAT：通过语义自适应标记的推理进行推测解码的加速

SDSAT: Accelerating LLM Inference through Speculative Decoding with Semantic Adaptive Tokens

Chengbo Liu, Yong Zhu

TL;DR通过引入具有语义自适应能力的令牌，提出一种用于大型语言模型（LLM）的加速方案（SDSAT）。该方案通过细调模型和使用训练方法，以及使用新的生成策略，能够在不影响模型准确性的情况下，提高模型生成草稿令牌的准确性，并且在 CodeLlama-13B 和 7B 模型上实验，分别获得了超过 3.5X 和 3.0X 的加速效果。

Abstract

We propose an acceleration scheme for large language models (LLMs) through speculative decoding with →

acceleration scheme large language models speculative decoding semantic adaptive tokens training method

发现论文，激发创造

S2D：排序的推测解码，用于更高效部署嵌套大型语言模型

部署异步大型语言模型（LLMs）的代价高昂，为了减少成本，本文介绍了一种新的多目标场景的 Draft 模型部署方法，并提出了一种更高效的排序 Speculative Decoding 机制，该方法在多目标环境下优于基线模型。

Jul, 2024

草案和验证：通过自我推理解码实现无损大语言模型的加速

我们提出了一种新颖的推理方案，自我推测解码，用于加速大型语言模型（LLMs），无需辅助模型。该方法通过两个阶段的过程来实现：草稿和验证。草稿阶段以稍低质量但更快的速度生成草稿标记，通过在草稿期间选择性跳过某些中间层来实现。然后，验证阶段使用原始 LLM 在一次前向传递中验证那些草稿输出标记。该过程确保最终输出与未经修改的 LLM 产生的输出完全相同，从而保持输出质量。所提出的方法不需要额外的神经网络训练和额外的内存占用，是一种即插即用和经济高效的推理加速解决方案。与 LLaMA-2 及其微调模型的基准测试表明，加速比最高可达 1.73 倍。

Sep, 2023

探讨推测性解码

使用分析模型来选择适合特定工作负载的合适草稿模型，以提高推理速度并设计适用于 LLaMA-65B 的新草稿模型，能够提供比现有草稿模型高 30% 的吞吐量。

Feb, 2024

EMS-SD：高效的多样本猜测解码用于加速大型语言模型

通过提出一种新方法，解决多样本推断速度提高中可变数量的 token 导致效率下降的问题，无需增加计算和内存开销，并且可以处理不一致的样本预测 token 的情况。

May, 2024

加速 LLM 推断的分阶段推测解码

利用大型语言模型（LLM）的最新进展，我们提出了一种新颖的算法 —— 分阶段投机性解码，以加速小批量、设备上的 LLM 推断。我们通过改进投机性解码的前期工作解决了小批量推断的低算术密度问题。首先，我们将投机性批量重新组织为一棵树，这降低了生成成本并增加了每批预期的标记数。其次，我们添加了第二阶段的投机性解码。综合而言，我们在完美地保留输出质量的同时，将单批解码延迟降低了 3.16 倍，使用了一个 762M 参数的 GPT-2-L 模型。

Aug, 2023

递归推测解码：通过无替换抽样加速 LLM 推理

递归推测解码是一种基于树的方法，利用抽样生成多样性的草稿令牌序列来加速大型语言模型，从而在固定的草稿序列长度和计算预算下取得了优越性能。

Feb, 2024

使用混合标记 / 嵌入推测器加速生产 LLM

设计和训练新型的推测解码草稿模型，通过在上下文向量和样本标记上条件化草稿预测，可以高效预测高质量的 n-gram，以提高大型语言模型在生产环境中的推理速度。

Apr, 2024

迈向快速多语言 LLM 推断：投机式解码和专业的起草机

大语言模型在自然语言处理中产生了革命性的作用，并且扩展了它在不同商业应用中的适用性。然而，这些模型在多语言环境中的部署受到推理时间的限制。为了缓解这一挑战，本文探讨了使用推测解码的助理模型的训练方法，其中助理模型用于草拟未来的令牌，并通过目标语言模型进行验证。我们表明，通过有针对性的预训练和微调策略优化的专门针对语言的草拟模型，在推理时间上显著减少了时间，相较于以前的方法。我们在推理时间、领域外优化以及 GPT-4o 评估等方面验证了这些模型。

Jun, 2024

在线投机解码

通过在线推理和训练预估模型，我们提出了一种在线推理预估解码技术，用于加速大型语言模型的推理过程，并减少延迟。

Oct, 2023

投机的对比解码

通过对大型语言模型进行推测性对比解码，提高了生成质量的同时节省了计算资源。

Nov, 2023