加速大型语言模型推理的多令牌联合预测解码

Jul, 2024

加速大型语言模型推理的多令牌联合预测解码

Multi-Token Joint Speculative Decoding for Accelerating Large Language Model Inference

Zongyue Qin, Ziniu Hu, Zifan He, Neha Prakriya, Jason Cong...

TL;DR改进了基于变压器的大语言模型的推理速度和效率，通过将多个标记关联起来并使用验证步骤进行加速和近似，从而实现更好的输出困惑度和效率。

Abstract

transformer-based large language models (LLMs) have demonstrated their power in various tasks, but their inference incurs significant time and energy costs. To accelerate LLM inference, speculative decoding uses

发现论文，激发创造

加速 LLM 推断的分阶段推测解码

利用大型语言模型（LLM）的最新进展，我们提出了一种新颖的算法——分阶段投机性解码，以加速小批量、设备上的LLM推断。我们通过改进投机性解码的前期工作解决了小批量推断的低算术密度问题。首先，我们将投机性批量重新组织为一棵树，这降低了生成成本并增加了每批预期的标记数。其次，我们添加了第二阶段的投机性解码。综合而言，我们在完美地保留输出质量的同时，将单批解码延迟降低了3.16倍，使用了一个762M参数的GPT-2-L模型。

Aug, 2023

大语言模型推理中的效率增强：专门解码的综合调查

通过提出实例、讨论关键方面，总结了Speculative Decoding的定义、技术、挑战和未来方向，以加速LLM推理过程。

Jan, 2024

生成遇见验证：智能并行自动校正解码加速大型语言模型推理

本研究旨在加快具有数十亿参数的大型语言模型的推理速度。我们提出了一个名为SPACE（Smart Parallel Auto-Correct decoding）的创新方法，用于实现LLMs的无损加速。通过集成半自回归推理和猜测解码功能，SPACE使得自回归LLMs能够并行生成和验证令牌。此外，一种自动纠正解码算法在单个模型调用中便利地实现了令牌序列的同时生成和验证。通过对多个LLMs进行广泛实验，SPACE在保持输出质量的同时，实现了2.7倍至4.0倍的推理加速。

Feb, 2024

递归推测解码：通过无替换抽样加速 LLM 推理

递归推测解码是一种基于树的方法，利用抽样生成多样性的草稿令牌序列来加速大型语言模型，从而在固定的草稿序列长度和计算预算下取得了优越性能。

Feb, 2024

超越投机游戏：大型语言模型中投机执行调查

通过引入推测执行的概念，对大型语言模型进行推理加速，提升解码速度，该研究综述了当前推测执行在大型语言模型中的应用, 并提出了关键挑战和未来发展方向。

Apr, 2024

硬件感知并行提示解码用于LLM推理的内存高效加速

提出一种新颖的并行提示解码方法，仅需$0.0002$%的可训练参数，在16小时内可在单个A100-40GB GPU上进行高效训练，大大提高多令牌生成的接受率以及未来时间步骤的输出生成速度。

May, 2024

通过提前退出进行投机解码以加速LLM 推断，并采用汤普森抽样控制机制

在大型语言模型中，我们提出了一种新的方法，即具有无损加速的早期退出推理（EESD），通过在前N层后引入早期退出结构，利用语言模型的一部分生成初步令牌，并通过自蒸馏方法提高初步令牌的质量。我们还引入了一种新的采样机制，利用汤普森采样调节生成过程，自动确定每一轮的初步令牌数量。实验结果表明，与先前的方法相比，我们的方法在解码令牌时具有明显的加速效果。

Jun, 2024

S2D：排序的推测解码，用于更高效部署嵌套大型语言模型

部署异步大型语言模型（LLMs）的代价高昂，为了减少成本，本文介绍了一种新的多目标场景的Draft模型部署方法，并提出了一种更高效的排序Speculative Decoding机制，该方法在多目标环境下优于基线模型。

Jul, 2024

将垃圾变为宝藏：通过标记回收加速大型语言模型的推理

本研究解决了大型语言模型推理延迟的问题，提出了一种新颖的标记回收方法。通过利用解码过程中生成的候选标记，构建了一个邻接矩阵，并采用广度优先搜索算法构建草稿树，从而有效提升推理速度。实验证明，此方法在各类大型语言模型上实现了约2倍的速度提升，并显著优于现有的无训练方法和训练方法。

Aug, 2024

动态宽度推测性束解码用于高效大型语言模型推理

本文探讨了大型语言模型推理过程中低效性的问题，提出了一种新的动态宽度推测性束解码（DSBD）方法，以应对推测解码与束采样融合中的诸多挑战。该方法通过优化束的数量和改进验证机制，提高了推理速度并保证了输出质量，具有重要的潜在应用价值。

Sep, 2024