使用混合标记 / 嵌入推测器加速生产 LLM
大语言模型在自然语言处理中产生了革命性的作用,并且扩展了它在不同商业应用中的适用性。然而,这些模型在多语言环境中的部署受到推理时间的限制。为了缓解这一挑战,本文探讨了使用推测解码的助理模型的训练方法,其中助理模型用于草拟未来的令牌,并通过目标语言模型进行验证。我们表明,通过有针对性的预训练和微调策略优化的专门针对语言的草拟模型,在推理时间上显著减少了时间,相较于以前的方法。我们在推理时间、领域外优化以及 GPT-4o 评估等方面验证了这些模型。
Jun, 2024
利用大型语言模型(LLM)的最新进展,我们提出了一种新颖的算法 —— 分阶段投机性解码,以加速小批量、设备上的 LLM 推断。我们通过改进投机性解码的前期工作解决了小批量推断的低算术密度问题。首先,我们将投机性批量重新组织为一棵树,这降低了生成成本并增加了每批预期的标记数。其次,我们添加了第二阶段的投机性解码。综合而言,我们在完美地保留输出质量的同时,将单批解码延迟降低了 3.16 倍,使用了一个 762M 参数的 GPT-2-L 模型。
Aug, 2023
通过引入具有语义自适应能力的令牌,提出一种用于大型语言模型(LLM)的加速方案(SDSAT)。该方案通过细调模型和使用训练方法,以及使用新的生成策略,能够在不影响模型准确性的情况下,提高模型生成草稿令牌的准确性,并且在 CodeLlama-13B 和 7B 模型上实验,分别获得了超过 3.5X 和 3.0X 的加速效果。
Mar, 2024
通过使用预测值,基于 Transformer 架构的生成式大型语言模型 (SPEED) 能够并行地执行当前令牌以及多个未来令牌,从而提高推理效率,减少延迟,并在保持模型准确性的同时实现支持参数共享的更深层次解码器的训练。
Oct, 2023
我们提出了一种新颖的推理方案,自我推测解码,用于加速大型语言模型(LLMs),无需辅助模型。该方法通过两个阶段的过程来实现:草稿和验证。草稿阶段以稍低质量但更快的速度生成草稿标记,通过在草稿期间选择性跳过某些中间层来实现。然后,验证阶段使用原始 LLM 在一次前向传递中验证那些草稿输出标记。该过程确保最终输出与未经修改的 LLM 产生的输出完全相同,从而保持输出质量。所提出的方法不需要额外的神经网络训练和额外的内存占用,是一种即插即用和经济高效的推理加速解决方案。与 LLaMA-2 及其微调模型的基准测试表明,加速比最高可达 1.73 倍。
Sep, 2023
Speculative Streaming 是一种单一模型的推测解码方法,通过将起草融入目标模型,将微调目标从下一个标记预测改为未来 n-gram 预测的目标,以在总结、结构查询和语义表示等多个任务中提高 1.8-3.1 倍的解码速度,而不损失生成质量。此外,Speculative Streaming 在参数效率方面表现出色,与 Medusa-style 架构相比,使用的额外参数较少,适用于资源受限的设备。
Feb, 2024
通过在 MLLMs 中应用推测解码,特别是 LLaVA 7B,我们展示了一个仅语言模型可以作为推测解码的优秀起草模型,绕过了起草模型中图像令牌和其相关处理组件的需求。我们的实验证明,推测解码可以在三个不同任务中实现高达 2.37 倍的内存速度提升,使用的是我们从头开始训练的 115M 参数语言模型。此外,我们还引入了一个紧凑的 LLaVA 起草模型,其中包含图像适配器,在图像字幕生成方面表现出边际性能增益,并在其他任务中保持可比较的结果。
Apr, 2024
通过提出一种新方法,解决多样本推断速度提高中可变数量的 token 导致效率下降的问题,无需增加计算和内存开销,并且可以处理不一致的样本预测 token 的情况。
May, 2024