级联推测草稿以提升 LLM 推理速度
部署异步大型语言模型(LLMs)的代价高昂,为了减少成本,本文介绍了一种新的多目标场景的 Draft 模型部署方法,并提出了一种更高效的排序 Speculative Decoding 机制,该方法在多目标环境下优于基线模型。
Jul, 2024
Speculative Streaming 是一种单一模型的推测解码方法,通过将起草融入目标模型,将微调目标从下一个标记预测改为未来 n-gram 预测的目标,以在总结、结构查询和语义表示等多个任务中提高 1.8-3.1 倍的解码速度,而不损失生成质量。此外,Speculative Streaming 在参数效率方面表现出色,与 Medusa-style 架构相比,使用的额外参数较少,适用于资源受限的设备。
Feb, 2024
通过提出一个简单的草稿模型训练框架,直接对齐与聊天目标模型,我们通过个别的预训练、蒸馏数据集生成以及知识蒸馏的微调,成功训练了仅为原始模型大小的 1.64% 的 Llama 2 Chat Drafter 115M,该模型结合了先进的推测解码技术,在各种任务上相对于自回归解码实现了 2.3 倍效率的提升和 2.4 倍的加速。
Feb, 2024
大型语言模型在各种自然语言处理任务中展现出令人印象深刻的能力,但是自回归生成文本却非常耗时。提高速度的一个方法是进行猜测性解码,即由快速的草稿模型生成候选分段(一系列令牌),然后由目标模型并行验证。然而,候选标记的接受率受到模型、数据集和解码设置等多个因素的限制。本文提出了从草稿模型中采样多个候选分段,并将它们分批进行验证的方法。我们设计了高效的多候选验证算法,同时保持目标模型的分布。我们的方法在多个数据集和模型上都展现出显著的接受率改进,始终优于标准的猜测性解码。
Jan, 2024
我们提出了一种新颖的推理方案,自我推测解码,用于加速大型语言模型(LLMs),无需辅助模型。该方法通过两个阶段的过程来实现:草稿和验证。草稿阶段以稍低质量但更快的速度生成草稿标记,通过在草稿期间选择性跳过某些中间层来实现。然后,验证阶段使用原始 LLM 在一次前向传递中验证那些草稿输出标记。该过程确保最终输出与未经修改的 LLM 产生的输出完全相同,从而保持输出质量。所提出的方法不需要额外的神经网络训练和额外的内存占用,是一种即插即用和经济高效的推理加速解决方案。与 LLaMA-2 及其微调模型的基准测试表明,加速比最高可达 1.73 倍。
Sep, 2023
通过引入具有语义自适应能力的令牌,提出一种用于大型语言模型(LLM)的加速方案(SDSAT)。该方案通过细调模型和使用训练方法,以及使用新的生成策略,能够在不影响模型准确性的情况下,提高模型生成草稿令牌的准确性,并且在 CodeLlama-13B 和 7B 模型上实验,分别获得了超过 3.5X 和 3.0X 的加速效果。
Mar, 2024
通过引入改进的推测解码方法,本文旨在提高大型语言模型的效率。我们的方法结合了两种已有技术的优势:经典的双模型推测解码方法和较新的单模型方法 Medusa。借鉴 Medusa 的思想,我们的方法采用了单模型策略进行推测解码。然而,我们的方法通过采用一种轻量级的具有循环依赖设计的草稿头来区别自己,类似于经典推测解码中使用的小型草稿模型,但不涉及完整的 Transformer 架构的复杂性。由于循环依赖,我们可以使用波束搜索来迅速过滤掉草稿头中不需要的候选项。其结果是一种将单模型设计的简单性与在 Medusa 中仅用于推理的数据依赖树注意结构的需求结合起来的方法。我们通过对几种流行的开源语言模型进行了实证研究,以及对采用这种方法涉及的权衡的综合分析进行了验证。
Mar, 2024