通过推测解码实现更快级联
利用级联的投机式编码方法,以提高大型语言模型的效率,通过引入垂直级联和水平级联来消除自回归生成和提高草拟中的时间分配的效率,从而进一步提高了 72% 的加速度。
Dec, 2023
通过对 FLAN-T5 模型在一系列自然语言基准测试中进行实验,我们表明,通过学习后续的推迟规则来结合较小模型的嵌入和较大模型的中间层,可以在整体成本与质量的权衡中实现额外的提升。
Apr, 2024
本文提出了一种名为 “speculative decoding” 的算法,通过逐步并行地计算,采样自动回归模型可更快,同时采用了采样方法和一些新的技术,使得不改变分布的情况下,从大模型中精确解码变得更快,从而实现了不需要重新训练或架构更改即可支持现有模型的加速。在 T5-XXL 模型上的比较表明,该方法可以实现 2-3 倍的加速,而输出仍然与标准 T5X 实现相同。
Nov, 2022
Speculative Streaming 是一种单一模型的推测解码方法,通过将起草融入目标模型,将微调目标从下一个标记预测改为未来 n-gram 预测的目标,以在总结、结构查询和语义表示等多个任务中提高 1.8-3.1 倍的解码速度,而不损失生成质量。此外,Speculative Streaming 在参数效率方面表现出色,与 Medusa-style 架构相比,使用的额外参数较少,适用于资源受限的设备。
Feb, 2024
大型语言模型在各种自然语言处理任务中展现出令人印象深刻的能力,但是自回归生成文本却非常耗时。提高速度的一个方法是进行猜测性解码,即由快速的草稿模型生成候选分段(一系列令牌),然后由目标模型并行验证。然而,候选标记的接受率受到模型、数据集和解码设置等多个因素的限制。本文提出了从草稿模型中采样多个候选分段,并将它们分批进行验证的方法。我们设计了高效的多候选验证算法,同时保持目标模型的分布。我们的方法在多个数据集和模型上都展现出显著的接受率改进,始终优于标准的猜测性解码。
Jan, 2024
通过引入推测执行的概念,对大型语言模型进行推理加速,提升解码速度,该研究综述了当前推测执行在大型语言模型中的应用,并提出了关键挑战和未来发展方向。
Apr, 2024