Chimera:融合所有令牌的无损解码方法用于加速大规模语言模型推理
我们提出了一种新颖的推理方案,自我推测解码,用于加速大型语言模型(LLMs),无需辅助模型。该方法通过两个阶段的过程来实现:草稿和验证。草稿阶段以稍低质量但更快的速度生成草稿标记,通过在草稿期间选择性跳过某些中间层来实现。然后,验证阶段使用原始 LLM 在一次前向传递中验证那些草稿输出标记。该过程确保最终输出与未经修改的 LLM 产生的输出完全相同,从而保持输出质量。所提出的方法不需要额外的神经网络训练和额外的内存占用,是一种即插即用和经济高效的推理加速解决方案。与 LLaMA-2 及其微调模型的基准测试表明,加速比最高可达 1.73 倍。
Sep, 2023
在这篇论文中,我们介绍了一种名为 Medusa 的方法,通过增加额外的解码头来预测并行的多个后续标记,从而提高 LLM 推理的效率,并减少所需的解码步骤。通过两个级别的精细调整程序,Medusa 可以满足不同用例的需求。此外,我们还提出了几种扩展方法,包括自我蒸馏和典型接受方案,以提高 Medusa 的效用。我们的实验证明,Medusa-1 可以在不损害生成质量的情况下实现超过 2.2 倍的加速,而 Medusa-2 进一步提高了加速度,可达到 2.3-3.6 倍。
Jan, 2024
通过在 MLLMs 中应用推测解码,特别是 LLaVA 7B,我们展示了一个仅语言模型可以作为推测解码的优秀起草模型,绕过了起草模型中图像令牌和其相关处理组件的需求。我们的实验证明,推测解码可以在三个不同任务中实现高达 2.37 倍的内存速度提升,使用的是我们从头开始训练的 115M 参数语言模型。此外,我们还引入了一个紧凑的 LLaVA 起草模型,其中包含图像适配器,在图像字幕生成方面表现出边际性能增益,并在其他任务中保持可比较的结果。
Apr, 2024
LLMA 是一种基于并行计算的 LLM 加速器,通过在一次解码步骤中选择参考文本并将其标记复制到解码器,即可实现对 LLM 的推理加速并提高计算并行性,使其在多种实际生成场景中生成结果与贪婪解码相同,达到 2 倍以上的加速。
Apr, 2023
大语言模型在自然语言处理中产生了革命性的作用,并且扩展了它在不同商业应用中的适用性。然而,这些模型在多语言环境中的部署受到推理时间的限制。为了缓解这一挑战,本文探讨了使用推测解码的助理模型的训练方法,其中助理模型用于草拟未来的令牌,并通过目标语言模型进行验证。我们表明,通过有针对性的预训练和微调策略优化的专门针对语言的草拟模型,在推理时间上显著减少了时间,相较于以前的方法。我们在推理时间、领域外优化以及 GPT-4o 评估等方面验证了这些模型。
Jun, 2024
通过引入改进的推测解码方法,本文旨在提高大型语言模型的效率。我们的方法结合了两种已有技术的优势:经典的双模型推测解码方法和较新的单模型方法 Medusa。借鉴 Medusa 的思想,我们的方法采用了单模型策略进行推测解码。然而,我们的方法通过采用一种轻量级的具有循环依赖设计的草稿头来区别自己,类似于经典推测解码中使用的小型草稿模型,但不涉及完整的 Transformer 架构的复杂性。由于循环依赖,我们可以使用波束搜索来迅速过滤掉草稿头中不需要的候选项。其结果是一种将单模型设计的简单性与在 Medusa 中仅用于推理的数据依赖树注意结构的需求结合起来的方法。我们通过对几种流行的开源语言模型进行了实证研究,以及对采用这种方法涉及的权衡的综合分析进行了验证。
Mar, 2024
通过提出一个简单的草稿模型训练框架,直接对齐与聊天目标模型,我们通过个别的预训练、蒸馏数据集生成以及知识蒸馏的微调,成功训练了仅为原始模型大小的 1.64% 的 Llama 2 Chat Drafter 115M,该模型结合了先进的推测解码技术,在各种任务上相对于自回归解码实现了 2.3 倍效率的提升和 2.4 倍的加速。
Feb, 2024
基于非自回归解码范式和增加的并行性,我们的 Amphista 方法在推理过程中展示了较高的效率,相比自回归方法,其对于大型语言模型的解码速度进行了大幅提升。
Jun, 2024