迈向快速多语言 LLM 推断：投机式解码和专业的起草机

Jun, 2024

迈向快速多语言 LLM 推断：投机式解码和专业的起草机

Towards Fast Multilingual LLM Inference: Speculative Decoding and Specialized Drafters

Euiin Yi, Taehyeon Kim, Hongseok Jeung, Du-Seong Chang, Se-Young Yun

TL;DR大语言模型在自然语言处理中产生了革命性的作用，并且扩展了它在不同商业应用中的适用性。然而，这些模型在多语言环境中的部署受到推理时间的限制。为了缓解这一挑战，本文探讨了使用推测解码的助理模型的训练方法，其中助理模型用于草拟未来的令牌，并通过目标语言模型进行验证。我们表明，通过有针对性的预训练和微调策略优化的专门针对语言的草拟模型，在推理时间上显著减少了时间，相较于以前的方法。我们在推理时间、领域外优化以及 GPT-4o 评估等方面验证了这些模型。

Abstract

large language models (LLMs) have revolutionized natural language processing and broadened their applicability across diverse commercial applications. However, the deployment of these models is constrained by high infer

large language models inference time multilingual settings draft models speculative decoding

发现论文，激发创造

草案和验证：通过自我推理解码实现无损大语言模型的加速

我们提出了一种新颖的推理方案，自我推测解码，用于加速大型语言模型（LLMs），无需辅助模型。该方法通过两个阶段的过程来实现：草稿和验证。草稿阶段以稍低质量但更快的速度生成草稿标记，通过在草稿期间选择性跳过某些中间层来实现。然后，验证阶段使用原始 LLM 在一次前向传递中验证那些草稿输出标记。该过程确保最终输出与未经修改的 LLM 产生的输出完全相同，从而保持输出质量。所提出的方法不需要额外的神经网络训练和额外的内存占用，是一种即插即用和经济高效的推理加速解决方案。与 LLaMA-2 及其微调模型的基准测试表明，加速比最高可达 1.73 倍。

Sep, 2023

关于多模态大型语言模型的推理解码

通过在 MLLMs 中应用推测解码，特别是 LLaVA 7B，我们展示了一个仅语言模型可以作为推测解码的优秀起草模型，绕过了起草模型中图像令牌和其相关处理组件的需求。我们的实验证明，推测解码可以在三个不同任务中实现高达 2.37 倍的内存速度提升，使用的是我们从头开始训练的 115M 参数语言模型。此外，我们还引入了一个紧凑的 LLaVA 起草模型，其中包含图像适配器，在图像字幕生成方面表现出边际性能增益，并在其他任务中保持可比较的结果。

Apr, 2024

加速 LLM 推断的分阶段推测解码

利用大型语言模型（LLM）的最新进展，我们提出了一种新颖的算法 —— 分阶段投机性解码，以加速小批量、设备上的 LLM 推断。我们通过改进投机性解码的前期工作解决了小批量推断的低算术密度问题。首先，我们将投机性批量重新组织为一棵树，这降低了生成成本并增加了每批预期的标记数。其次，我们添加了第二阶段的投机性解码。综合而言，我们在完美地保留输出质量的同时，将单批解码延迟降低了 3.16 倍，使用了一个 762M 参数的 GPT-2-L 模型。

Aug, 2023

探讨推测性解码

使用分析模型来选择适合特定工作负载的合适草稿模型，以提高推理速度并设计适用于 LLaMA-65B 的新草稿模型，能够提供比现有草稿模型高 30% 的吞吐量。

Feb, 2024

投机式流处理：高速 LLM 推理无需辅助模型

Speculative Streaming 是一种单一模型的推测解码方法，通过将起草融入目标模型，将微调目标从下一个标记预测改为未来 n-gram 预测的目标，以在总结、结构查询和语义表示等多个任务中提高 1.8-3.1 倍的解码速度，而不损失生成质量。此外，Speculative Streaming 在参数效率方面表现出色，与 Medusa-style 架构相比，使用的额外参数较少，适用于资源受限的设备。

Feb, 2024

高级推理解码的预备模型直接对齐与聊天细调语言模型

通过提出一个简单的草稿模型训练框架，直接对齐与聊天目标模型，我们通过个别的预训练、蒸馏数据集生成以及知识蒸馏的微调，成功训练了仅为原始模型大小的 1.64% 的 Llama 2 Chat Drafter 115M，该模型结合了先进的推测解码技术，在各种任务上相对于自回归解码实现了 2.3 倍效率的提升和 2.4 倍的加速。

Feb, 2024

使用混合标记 / 嵌入推测器加速生产 LLM

设计和训练新型的推测解码草稿模型，通过在上下文向量和样本标记上条件化草稿预测，可以高效预测高质量的 n-gram，以提高大型语言模型在生产环境中的推理速度。

Apr, 2024

高效译码的投机流水线执行

通过使用预测值，基于 Transformer 架构的生成式大型语言模型 (SPEED) 能够并行地执行当前令牌以及多个未来令牌，从而提高推理效率，减少延迟，并在保持模型准确性的同时实现支持参数共享的更深层次解码器的训练。

Oct, 2023

大语言模型推理中的效率增强：专门解码的综合调查

通过提出实例、讨论关键方面，总结了 Speculative Decoding 的定义、技术、挑战和未来方向，以加速 LLM 推理过程。

Jan, 2024

大语言模型的高效推论综述

大规模语言模型的有效推理需要克服模型规模大、注意力操作复杂度高、自回归解码等问题，本文对提高大规模语言模型推理效率的现有技术文献进行了综述，介绍了数据层、模型层和系统层优化的方法，并通过实验进行了定量分析，最后总结了相关知识，并探讨了未来研究方向。

Apr, 2024