递归推测解码:通过无替换抽样加速 LLM 推理
通过引入具有语义自适应能力的令牌,提出一种用于大型语言模型(LLM)的加速方案(SDSAT)。该方案通过细调模型和使用训练方法,以及使用新的生成策略,能够在不影响模型准确性的情况下,提高模型生成草稿令牌的准确性,并且在 CodeLlama-13B 和 7B 模型上实验,分别获得了超过 3.5X 和 3.0X 的加速效果。
Mar, 2024
通过提出一种新方法,解决多样本推断速度提高中可变数量的 token 导致效率下降的问题,无需增加计算和内存开销,并且可以处理不一致的样本预测 token 的情况。
May, 2024
在大型语言模型中,我们提出了一种新的方法,即具有无损加速的早期退出推理(EESD),通过在前 N 层后引入早期退出结构,利用语言模型的一部分生成初步令牌,并通过自蒸馏方法提高初步令牌的质量。我们还引入了一种新的采样机制,利用汤普森采样调节生成过程,自动确定每一轮的初步令牌数量。实验结果表明,与先前的方法相比,我们的方法在解码令牌时具有明显的加速效果。
Jun, 2024
Speculative Streaming 是一种单一模型的推测解码方法,通过将起草融入目标模型,将微调目标从下一个标记预测改为未来 n-gram 预测的目标,以在总结、结构查询和语义表示等多个任务中提高 1.8-3.1 倍的解码速度,而不损失生成质量。此外,Speculative Streaming 在参数效率方面表现出色,与 Medusa-style 架构相比,使用的额外参数较少,适用于资源受限的设备。
Feb, 2024
利用大型语言模型(LLM)的最新进展,我们提出了一种新颖的算法 —— 分阶段投机性解码,以加速小批量、设备上的 LLM 推断。我们通过改进投机性解码的前期工作解决了小批量推断的低算术密度问题。首先,我们将投机性批量重新组织为一棵树,这降低了生成成本并增加了每批预期的标记数。其次,我们添加了第二阶段的投机性解码。综合而言,我们在完美地保留输出质量的同时,将单批解码延迟降低了 3.16 倍,使用了一个 762M 参数的 GPT-2-L 模型。
Aug, 2023
大型语言模型在各种自然语言处理任务中展现出令人印象深刻的能力,但是自回归生成文本却非常耗时。提高速度的一个方法是进行猜测性解码,即由快速的草稿模型生成候选分段(一系列令牌),然后由目标模型并行验证。然而,候选标记的接受率受到模型、数据集和解码设置等多个因素的限制。本文提出了从草稿模型中采样多个候选分段,并将它们分批进行验证的方法。我们设计了高效的多候选验证算法,同时保持目标模型的分布。我们的方法在多个数据集和模型上都展现出显著的接受率改进,始终优于标准的猜测性解码。
Jan, 2024