动态宽度推测性束解码用于高效大型语言模型推理

Sep, 2024

动态宽度推测性束解码用于高效大型语言模型推理

Dynamic-Width Speculative Beam Decoding for Efficient LLM Inference

Zongyue Qin, Zifan He, Neha Prakriya, Jason Cong, Yizhou Sun

TL;DR本文探讨了大型语言模型推理过程中低效性的问题，提出了一种新的动态宽度推测性束解码（DSBD）方法，以应对推测解码与束采样融合中的诸多挑战。该方法通过优化束的数量和改进验证机制，提高了推理速度并保证了输出质量，具有重要的潜在应用价值。

Abstract

Large language models (LLMs) have shown outstanding performance across numerous real-world tasks. However, the autoregressive nature of these models makes the inference process slow and costly. Speculative decoding

发现论文，激发创造

加速 LLM 推断的分阶段推测解码

利用大型语言模型（LLM）的最新进展，我们提出了一种新颖的算法——分阶段投机性解码，以加速小批量、设备上的LLM推断。我们通过改进投机性解码的前期工作解决了小批量推断的低算术密度问题。首先，我们将投机性批量重新组织为一棵树，这降低了生成成本并增加了每批预期的标记数。其次，我们添加了第二阶段的投机性解码。综合而言，我们在完美地保留输出质量的同时，将单批解码延迟降低了3.16倍，使用了一个762M参数的GPT-2-L模型。

Aug, 2023

大型语言模型在服务中采用预测解码和批处理的协同效应

对于大型语言模型（LLMs）如GPT，提出了一种新的自适应推测解码策略，通过批处理和推测解码技术提高GPU硬件利用率，并在各种LLM模型和GPU架构上进行了广泛的特征分析，结果显示新方法能够达到与固定长度推测解码方案相等或更好的性能。

Oct, 2023

大语言模型推理中的效率增强：专门解码的综合调查

通过提出实例、讨论关键方面，总结了Speculative Decoding的定义、技术、挑战和未来方向，以加速LLM推理过程。

Jan, 2024

生成遇见验证：智能并行自动校正解码加速大型语言模型推理

本研究旨在加快具有数十亿参数的大型语言模型的推理速度。我们提出了一个名为SPACE（Smart Parallel Auto-Correct decoding）的创新方法，用于实现LLMs的无损加速。通过集成半自回归推理和猜测解码功能，SPACE使得自回归LLMs能够并行生成和验证令牌。此外，一种自动纠正解码算法在单个模型调用中便利地实现了令牌序列的同时生成和验证。通过对多个LLMs进行广泛实验，SPACE在保持输出质量的同时，实现了2.7倍至4.0倍的推理加速。

Feb, 2024

递归推测解码：通过无替换抽样加速 LLM 推理

递归推测解码是一种基于树的方法，利用抽样生成多样性的草稿令牌序列来加速大型语言模型，从而在固定的草稿序列长度和计算预算下取得了优越性能。

Feb, 2024

超越投机游戏：大型语言模型中投机执行调查

通过引入推测执行的概念，对大型语言模型进行推理加速，提升解码速度，该研究综述了当前推测执行在大型语言模型中的应用, 并提出了关键挑战和未来发展方向。

Apr, 2024

硬件感知并行提示解码用于LLM推理的内存高效加速

提出一种新颖的并行提示解码方法，仅需$0.0002$%的可训练参数，在16小时内可在单个A100-40GB GPU上进行高效训练，大大提高多令牌生成的接受率以及未来时间步骤的输出生成速度。

May, 2024

通过提前退出进行投机解码以加速LLM 推断，并采用汤普森抽样控制机制

在大型语言模型中，我们提出了一种新的方法，即具有无损加速的早期退出推理（EESD），通过在前N层后引入早期退出结构，利用语言模型的一部分生成初步令牌，并通过自蒸馏方法提高初步令牌的质量。我们还引入了一种新的采样机制，利用汤普森采样调节生成过程，自动确定每一轮的初步令牌数量。实验结果表明，与先前的方法相比，我们的方法在解码令牌时具有明显的加速效果。

Jun, 2024

加速大型语言模型推理的多令牌联合预测解码

改进了基于变压器的大语言模型的推理速度和效率，通过将多个标记关联起来并使用验证步骤进行加速和近似，从而实现更好的输出困惑度和效率。

Jul, 2024

自适应草稿长度的并行推测性解码

本研究解决了现有推测性解码方法中目标模型与草稿模型异步执行导致的互等问题。提出的PEARL框架通过预验证和后验证策略并行化草稿阶段和验证阶段，实现了适应性草稿长度，从而显著提高了解码速度，实验表明相较于传统方法，速度提升可达3.79倍。

Aug, 2024