SpecTr: 基于最优传输的快速推理解码

Oct, 2023

SpecTr: 基于最优传输的快速推理解码

SpecTr: Fast Speculative Decoding via Optimal Transport

Ziteng Sun, Ananda Theertha Suresh, Jae Hun Ro, Ahmad Beirami, Himanshu Jain...

TL;DR通过将自回归抽样与猜测解码相结合，提出了一种理论上基于最优传输的规范解码方法，通过使用新的选择算法在保证解码质量的情况下获得解码速度的提升。

Abstract

autoregressive sampling from large language models has led to state-of-the-art results in several natural language tasks. However, autoregressive sampling generates tokens one at a time making it slow, and even p

autoregressive sampling speculative decoding membership cost optimal transport spectr

发现论文，激发创造

OPT-Tree：具有自适应草稿树结构的猜测解码

OPT-Tree 算法通过构建自适应和可扩展的缓冲树结构，实现了一步生成多个标记，从而解决了自回归语言模型中推理效率受限的问题。该算法优于现有的缓冲结构，与自回归解码相比，实现了最高 3.2 倍的加速比。

Jun, 2024

通过推测解码从 Transformer 中实现快速推断

本文提出了一种名为 “speculative decoding” 的算法，通过逐步并行地计算，采样自动回归模型可更快，同时采用了采样方法和一些新的技术，使得不改变分布的情况下，从大模型中精确解码变得更快，从而实现了不需要重新训练或架构更改即可支持现有模型的加速。在 T5-XXL 模型上的比较表明，该方法可以实现 2-3 倍的加速，而输出仍然与标准 T5X 实现相同。

Nov, 2022

多候选猜测解码

大型语言模型在各种自然语言处理任务中展现出令人印象深刻的能力，但是自回归生成文本却非常耗时。提高速度的一个方法是进行猜测性解码，即由快速的草稿模型生成候选分段（一系列令牌），然后由目标模型并行验证。然而，候选标记的接受率受到模型、数据集和解码设置等多个因素的限制。本文提出了从草稿模型中采样多个候选分段，并将它们分批进行验证的方法。我们设计了高效的多候选验证算法，同时保持目标模型的分布。我们的方法在多个数据集和模型上都展现出显著的接受率改进，始终优于标准的猜测性解码。

Jan, 2024

利用投机抽样加速大型语言模型解码

介绍了一种基于 “假设采样” 的算法，将 Transformer 解码加速 2 至 2.5 倍，同时保持样本质量和预测分布。

Feb, 2023

用于加速推测解码的最佳块级草稿验证

我们提出了一个更好的草稿验证算法，通过块级最优输送问题来实现，与令牌级别验证算法相比，在一系列任务和数据集中节约了墙钟速度。

Mar, 2024

探讨推测性解码

使用分析模型来选择适合特定工作负载的合适草稿模型，以提高推理速度并设计适用于 LLaMA-65B 的新草稿模型，能够提供比现有草稿模型高 30% 的吞吐量。

Feb, 2024

S2D：排序的推测解码，用于更高效部署嵌套大型语言模型

部署异步大型语言模型（LLMs）的代价高昂，为了减少成本，本文介绍了一种新的多目标场景的 Draft 模型部署方法，并提出了一种更高效的排序 Speculative Decoding 机制，该方法在多目标环境下优于基线模型。