REST: 基于检索的推测解码

Nov, 2023

REST: Retrieval-Based Speculative Decoding

Zhenyu He, Zexuan Zhong, Tianle Cai, Jason D Lee, Di He

TL;DR通过检索式推断解码（REST），可以加速语言模型的生成，实验证明这种方法在代码或文本生成中可以实现 1.62 倍至 2.36 倍的显著加速。

Abstract

We introduce retrieval-based speculative decoding (REST), a novel algorithm designed to speed up language model generation. The key insigh

retrieval-based speculative decoding language model generation text generation retrieval acceleration

发现论文，激发创造

通过推测解码从 Transformer 中实现快速推断

本文提出了一种名为 “speculative decoding” 的算法，通过逐步并行地计算，采样自动回归模型可更快，同时采用了采样方法和一些新的技术，使得不改变分布的情况下，从大模型中精确解码变得更快，从而实现了不需要重新训练或架构更改即可支持现有模型的加速。在 T5-XXL 模型上的比较表明，该方法可以实现 2-3 倍的加速，而输出仍然与标准 T5X 实现相同。

Nov, 2022

加速带有猜测的检索增强语言模型服务

通过猜测的检索和批量验证，RaLMSpec 提供了对迭代式 RaLM 的加速，保持了相同的模型输出。在多个评估上，RaLMSpec 相对于基准模型可以实现 1.75-2.39 倍的加速比。

Jan, 2024

多候选猜测解码

大型语言模型在各种自然语言处理任务中展现出令人印象深刻的能力，但是自回归生成文本却非常耗时。提高速度的一个方法是进行猜测性解码，即由快速的草稿模型生成候选分段（一系列令牌），然后由目标模型并行验证。然而，候选标记的接受率受到模型、数据集和解码设置等多个因素的限制。本文提出了从草稿模型中采样多个候选分段，并将它们分批进行验证的方法。我们设计了高效的多候选验证算法，同时保持目标模型的分布。我们的方法在多个数据集和模型上都展现出显著的接受率改进，始终优于标准的猜测性解码。

Jan, 2024

递归推测解码：通过无替换抽样加速 LLM 推理

递归推测解码是一种基于树的方法，利用抽样生成多样性的草稿令牌序列来加速大型语言模型，从而在固定的草稿序列长度和计算预算下取得了优越性能。

Feb, 2024

投机式流处理：高速 LLM 推理无需辅助模型

Speculative Streaming 是一种单一模型的推测解码方法，通过将起草融入目标模型，将微调目标从下一个标记预测改为未来 n-gram 预测的目标，以在总结、结构查询和语义表示等多个任务中提高 1.8-3.1 倍的解码速度，而不损失生成质量。此外，Speculative Streaming 在参数效率方面表现出色，与 Medusa-style 架构相比，使用的额外参数较少，适用于资源受限的设备。

Feb, 2024

强化自训练（ReST）的语言建模

ReST 是一种使用离线 RL 算法通过为 LLM 生成样本来改善其策略的简单算法，可以有效地提高机器翻译的质量和效率。

Aug, 2023

在线投机解码

通过在线推理和训练预估模型，我们提出了一种在线推理预估解码技术，用于加速大型语言模型的推理过程，并减少延迟。

Oct, 2023

利用投机抽样加速大型语言模型解码

介绍了一种基于 “假设采样” 的算法，将 Transformer 解码加速 2 至 2.5 倍，同时保持样本质量和预测分布。

Feb, 2023

REST：生成式动作识别的检索与自训练

本文提出使用 REST 框架，在不使用任何动作特定标签的情况下，通过生成的方式将生成模型适应于影片 / 动作，并使用基于 CLIP 的检索方法来训练模型，旨在实现训练一个生成模型，生成一个动画特定的自由格式标题来描述图像 / 动画识别，以解决细粒度识别难以在传统的目录式方法中表示的问题，并取得了不错的成效。

Sep, 2022

探讨推测性解码

使用分析模型来选择适合特定工作负载的合适草稿模型，以提高推理速度并设计适用于 LLaMA-65B 的新草稿模型，能够提供比现有草稿模型高 30% 的吞吐量。

Feb, 2024