投机的对比解码

Nov, 2023

Speculative Contrastive Decoding

Hongyi Yuan, Keming Lu, Fei Huang, Zheng Yuan, Chang Zhou

TL;DR通过对大型语言模型进行推测性对比解码，提高了生成质量的同时节省了计算资源。

Abstract

large language models (LLMs) have shown extraordinary performance in various language tasks, but high computational requirements hinder their widespread deployment. speculative decoding, which uses amateur models

large language models speculative decoding accelerated decoding generation quality computational resources

发现论文，激发创造

探讨推测性解码

使用分析模型来选择适合特定工作负载的合适草稿模型，以提高推理速度并设计适用于 LLaMA-65B 的新草稿模型，能够提供比现有草稿模型高 30% 的吞吐量。

Feb, 2024

大语言模型推理中的效率增强：专门解码的综合调查

通过提出实例、讨论关键方面，总结了 Speculative Decoding 的定义、技术、挑战和未来方向，以加速 LLM 推理过程。

Jan, 2024

S2D：排序的推测解码，用于更高效部署嵌套大型语言模型

部署异步大型语言模型（LLMs）的代价高昂，为了减少成本，本文介绍了一种新的多目标场景的 Draft 模型部署方法，并提出了一种更高效的排序 Speculative Decoding 机制，该方法在多目标环境下优于基线模型。

Jul, 2024

在线投机解码

通过在线推理和训练预估模型，我们提出了一种在线推理预估解码技术，用于加速大型语言模型的推理过程，并减少延迟。

Oct, 2023

加速动态猜测长度的猜测解码

DISCO 是一种动态调整推断长度优化方法，通过使用分类器在每个迭代中动态调整推断长度，从而提供推断质量的同时实现平均 10.3% 的速度增益。

May, 2024

关于多模态大型语言模型的推理解码

通过在 MLLMs 中应用推测解码，特别是 LLaVA 7B，我们展示了一个仅语言模型可以作为推测解码的优秀起草模型，绕过了起草模型中图像令牌和其相关处理组件的需求。我们的实验证明，推测解码可以在三个不同任务中实现高达 2.37 倍的内存速度提升，使用的是我们从头开始训练的 115M 参数语言模型。此外，我们还引入了一个紧凑的 LLaVA 起草模型，其中包含图像适配器，在图像字幕生成方面表现出边际性能增益，并在其他任务中保持可比较的结果。

Apr, 2024

蒸馏对比解码：通过对比解码和蒸馏提高 LLMs 的推理能力

通过使用 Distillation Contrastive Decoding（DCD）方法，我们成功提升了大型语言模型（LLM）在推理过程中的推理能力，该方法结合了 Contrastive Chain-of-thought Prompting 和先进的蒸馏技术，包括 Dropout 和 Quantization，以解决 Contrastive Decoding（CD）的局限性，增强了模型性能。

Feb, 2024

SDSAT：通过语义自适应标记的推理进行推测解码的加速

通过引入具有语义自适应能力的令牌，提出一种用于大型语言模型（LLM）的加速方案（SDSAT）。该方案通过细调模型和使用训练方法，以及使用新的生成策略，能够在不影响模型准确性的情况下，提高模型生成草稿令牌的准确性，并且在 CodeLlama-13B 和 7B 模型上实验，分别获得了超过 3.5X 和 3.0X 的加速效果。

Mar, 2024

多候选猜测解码

大型语言模型在各种自然语言处理任务中展现出令人印象深刻的能力，但是自回归生成文本却非常耗时。提高速度的一个方法是进行猜测性解码，即由快速的草稿模型生成候选分段（一系列令牌），然后由目标模型并行验证。然而，候选标记的接受率受到模型、数据集和解码设置等多个因素的限制。本文提出了从草稿模型中采样多个候选分段，并将它们分批进行验证的方法。我们设计了高效的多候选验证算法，同时保持目标模型的分布。我们的方法在多个数据集和模型上都展现出显著的接受率改进，始终优于标准的猜测性解码。

Jan, 2024

递归推测解码：通过无替换抽样加速 LLM 推理

递归推测解码是一种基于树的方法，利用抽样生成多样性的草稿令牌序列来加速大型语言模型，从而在固定的草稿序列长度和计算预算下取得了优越性能。

Feb, 2024