生成遇见验证：智能并行自动校正解码加速大型语言模型推理

Feb, 2024

生成遇见验证：智能并行自动校正解码加速大型语言模型推理

Generation Meets Verification: Accelerating Large Language Model Inference with Smart Parallel Auto-Correct Decoding

Hanling Yi, Feng Lin, Hongbin Li, Peiyang Ning, Xiaotian Yu...

TL;DR本研究旨在加快具有数十亿参数的大型语言模型的推理速度。我们提出了一个名为 SPACE（Smart Parallel Auto-Correct decoding）的创新方法，用于实现 LLMs 的无损加速。通过集成半自回归推理和猜测解码功能，SPACE 使得自回归 LLMs 能够并行生成和验证令牌。此外，一种自动纠正解码算法在单个模型调用中便利地实现了令牌序列的同时生成和验证。通过对多个 LLMs 进行广泛实验，SPACE 在保持输出质量的同时，实现了 2.7 倍至 4.0 倍的推理加速。

Abstract

This research aims to accelerate the inference speed of large language models (LLMs) with billions of parameters. We propose \textbf{S}mart \textbf{P}arallel \textbf{A}uto-\textbf{C}orrect d\textbf{E}coding (

large language models inference speed space semi-autoregressive inference speculative decoding

发现论文，激发创造

草案和验证：通过自我推理解码实现无损大语言模型的加速

我们提出了一种新颖的推理方案，自我推测解码，用于加速大型语言模型（LLMs），无需辅助模型。该方法通过两个阶段的过程来实现：草稿和验证。草稿阶段以稍低质量但更快的速度生成草稿标记，通过在草稿期间选择性跳过某些中间层来实现。然后，验证阶段使用原始 LLM 在一次前向传递中验证那些草稿输出标记。该过程确保最终输出与未经修改的 LLM 产生的输出完全相同，从而保持输出质量。所提出的方法不需要额外的神经网络训练和额外的内存占用，是一种即插即用和经济高效的推理加速解决方案。与 LLaMA-2 及其微调模型的基准测试表明，加速比最高可达 1.73 倍。

Sep, 2023

高效译码的投机流水线执行

通过使用预测值，基于 Transformer 架构的生成式大型语言模型 (SPEED) 能够并行地执行当前令牌以及多个未来令牌，从而提高推理效率，减少延迟，并在保持模型准确性的同时实现支持参数共享的更深层次解码器的训练。

Oct, 2023

APAR: LLMs 可以进行自动并行自回归解码

通过并行自回归生成的方法以及与推理解码相结合，可以显著提高大型语言模型的生成速度和性能。

Jan, 2024

通过隐藏传输进行并行解码以实现无损大型语言模型加速

大型语言模型的并行解码技术，包括隐藏状态传递、树状注意机制和加速技术等，提高了模型推理速度和生成准确性。

Apr, 2024

自动生成巨大，快速生成：快速自回归解码的 LLM-to-SLM

我们提出了一种混合方法，结合不同规模的语言模型以提高自回归解码的效率，同时保持高性能。该方法利用一个预先训练的冻结语言模型来编码所有提示标记，然后使用生成的表示来引导一个较小的语言模型来更高效地生成响应。与 LLM 相比，我们的方法在翻译和摘要任务中实现了高达 4 倍的速度提升，但只有 1-2% 的性能损失。

Feb, 2024

SDSAT：通过语义自适应标记的推理进行推测解码的加速

通过引入具有语义自适应能力的令牌，提出一种用于大型语言模型（LLM）的加速方案（SDSAT）。该方案通过细调模型和使用训练方法，以及使用新的生成策略，能够在不影响模型准确性的情况下，提高模型生成草稿令牌的准确性，并且在 CodeLlama-13B 和 7B 模型上实验，分别获得了超过 3.5X 和 3.0X 的加速效果。

Mar, 2024

PaDeLLM-NER：大型语言模型中的并行解码用于命名实体识别

该研究旨在通过大型语言模型（LLM）减少命名实体识别（NER）的生成延迟。通过并行解码技术，该方法在不需要额外模块或架构修改的情况下实现了对 NER 中所有提及的同时解码，从而提高了推理速度，同时保持了与最先进方法相当的预测质量。

Feb, 2024

关于多模态大型语言模型的推理解码

通过在 MLLMs 中应用推测解码，特别是 LLaVA 7B，我们展示了一个仅语言模型可以作为推测解码的优秀起草模型，绕过了起草模型中图像令牌和其相关处理组件的需求。我们的实验证明，推测解码可以在三个不同任务中实现高达 2.37 倍的内存速度提升，使用的是我们从头开始训练的 115M 参数语言模型。此外，我们还引入了一个紧凑的 LLaVA 起草模型，其中包含图像适配器，在图像字幕生成方面表现出边际性能增益，并在其他任务中保持可比较的结果。

Apr, 2024

硬件感知并行提示解码用于 LLM 推理的内存高效加速

提出一种新颖的并行提示解码方法，仅需 $0.0002$% 的可训练参数，在 16 小时内可在单个 A100-40GB GPU 上进行高效训练，大大提高多令牌生成的接受率以及未来时间步骤的输出生成速度。

May, 2024

语义保持的对抗性代码理解

本文提出一种语义保持的对抗代码嵌入方法，用于提高预训练语言模型在代码理解中的性能和防御对抗攻击。实验证明该方法可以在不降低性能的情况下提高模型的稳定性。

Sep, 2022