关于多模态大型语言模型的推理解码

CVPRApr, 2024

关于多模态大型语言模型的推理解码

On Speculative Decoding for Multimodal Large Language Models

Mukul Gagrani, Raghavv Goel, Wonseok Jeon, Junyoung Park, Mingu Lee...

TL;DR通过在 MLLMs 中应用推测解码，特别是 LLaVA 7B，我们展示了一个仅语言模型可以作为推测解码的优秀起草模型，绕过了起草模型中图像令牌和其相关处理组件的需求。我们的实验证明，推测解码可以在三个不同任务中实现高达 2.37 倍的内存速度提升，使用的是我们从头开始训练的 115M 参数语言模型。此外，我们还引入了一个紧凑的 LLaVA 起草模型，其中包含图像适配器，在图像字幕生成方面表现出边际性能增益，并在其他任务中保持可比较的结果。

Abstract

Inference with multimodal large language models (MLLMs) is slow due to their large-language-model backbone which suffers from memory bandwidth bottleneck and generates tokens auto-regressively. In this paper, we explore the application of →

multimodal large language models inference efficiency speculative decoding llava 7b image adapter

发现论文，激发创造

草案和验证：通过自我推理解码实现无损大语言模型的加速

我们提出了一种新颖的推理方案，自我推测解码，用于加速大型语言模型（LLMs），无需辅助模型。该方法通过两个阶段的过程来实现：草稿和验证。草稿阶段以稍低质量但更快的速度生成草稿标记，通过在草稿期间选择性跳过某些中间层来实现。然后，验证阶段使用原始 LLM 在一次前向传递中验证那些草稿输出标记。该过程确保最终输出与未经修改的 LLM 产生的输出完全相同，从而保持输出质量。所提出的方法不需要额外的神经网络训练和额外的内存占用，是一种即插即用和经济高效的推理加速解决方案。与 LLaMA-2 及其微调模型的基准测试表明，加速比最高可达 1.73 倍。

Sep, 2023

探讨推测性解码

使用分析模型来选择适合特定工作负载的合适草稿模型，以提高推理速度并设计适用于 LLaMA-65B 的新草稿模型，能够提供比现有草稿模型高 30% 的吞吐量。

Feb, 2024

大语言模型推理中的效率增强：专门解码的综合调查

通过提出实例、讨论关键方面，总结了 Speculative Decoding 的定义、技术、挑战和未来方向，以加速 LLM 推理过程。

Jan, 2024

加速 LLM 推断的分阶段推测解码

利用大型语言模型（LLM）的最新进展，我们提出了一种新颖的算法 —— 分阶段投机性解码，以加速小批量、设备上的 LLM 推断。我们通过改进投机性解码的前期工作解决了小批量推断的低算术密度问题。首先，我们将投机性批量重新组织为一棵树，这降低了生成成本并增加了每批预期的标记数。其次，我们添加了第二阶段的投机性解码。综合而言，我们在完美地保留输出质量的同时，将单批解码延迟降低了 3.16 倍，使用了一个 762M 参数的 GPT-2-L 模型。

Aug, 2023

高级推理解码的预备模型直接对齐与聊天细调语言模型

通过提出一个简单的草稿模型训练框架，直接对齐与聊天目标模型，我们通过个别的预训练、蒸馏数据集生成以及知识蒸馏的微调，成功训练了仅为原始模型大小的 1.64% 的 Llama 2 Chat Drafter 115M，该模型结合了先进的推测解码技术，在各种任务上相对于自回归解码实现了 2.3 倍效率的提升和 2.4 倍的加速。

Feb, 2024

投机式流处理：高速 LLM 推理无需辅助模型

Speculative Streaming 是一种单一模型的推测解码方法，通过将起草融入目标模型，将微调目标从下一个标记预测改为未来 n-gram 预测的目标，以在总结、结构查询和语义表示等多个任务中提高 1.8-3.1 倍的解码速度，而不损失生成质量。此外，Speculative Streaming 在参数效率方面表现出色，与 Medusa-style 架构相比，使用的额外参数较少，适用于资源受限的设备。

Feb, 2024

超越投机游戏：大型语言模型中投机执行调查

通过引入推测执行的概念，对大型语言模型进行推理加速，提升解码速度，该研究综述了当前推测执行在大型语言模型中的应用，并提出了关键挑战和未来发展方向。

Apr, 2024

EMS-SD：高效的多样本猜测解码用于加速大型语言模型

通过提出一种新方法，解决多样本推断速度提高中可变数量的 token 导致效率下降的问题，无需增加计算和内存开销，并且可以处理不一致的样本预测 token 的情况。

May, 2024

高效译码的投机流水线执行

通过使用预测值，基于 Transformer 架构的生成式大型语言模型 (SPEED) 能够并行地执行当前令牌以及多个未来令牌，从而提高推理效率，减少延迟，并在保持模型准确性的同时实现支持参数共享的更深层次解码器的训练。

Oct, 2023

多候选猜测解码

大型语言模型在各种自然语言处理任务中展现出令人印象深刻的能力，但是自回归生成文本却非常耗时。提高速度的一个方法是进行猜测性解码，即由快速的草稿模型生成候选分段（一系列令牌），然后由目标模型并行验证。然而，候选标记的接受率受到模型、数据集和解码设置等多个因素的限制。本文提出了从草稿模型中采样多个候选分段，并将它们分批进行验证的方法。我们设计了高效的多候选验证算法，同时保持目标模型的分布。我们的方法在多个数据集和模型上都展现出显著的接受率改进，始终优于标准的猜测性解码。

Jan, 2024