对于大型语言模型(LLMs)如 GPT,提出了一种新的自适应推测解码策略,通过批处理和推测解码技术提高 GPU 硬件利用率,并在各种 LLM 模型和 GPU 架构上进行了广泛的特征分析,结果显示新方法能够达到与固定长度推测解码方案相等或更好的性能。
Oct, 2023
大型语言模型在各种自然语言处理任务中展现出令人印象深刻的能力,但是自回归生成文本却非常耗时。提高速度的一个方法是进行猜测性解码,即由快速的草稿模型生成候选分段(一系列令牌),然后由目标模型并行验证。然而,候选标记的接受率受到模型、数据集和解码设置等多个因素的限制。本文提出了从草稿模型中采样多个候选分段,并将它们分批进行验证的方法。我们设计了高效的多候选验证算法,同时保持目标模型的分布。我们的方法在多个数据集和模型上都展现出显著的接受率改进,始终优于标准的猜测性解码。
Jan, 2024
本文提出了一种名为 “speculative decoding” 的算法,通过逐步并行地计算,采样自动回归模型可更快,同时采用了采样方法和一些新的技术,使得不改变分布的情况下,从大模型中精确解码变得更快,从而实现了不需要重新训练或架构更改即可支持现有模型的加速。在 T5-XXL 模型上的比较表明,该方法可以实现 2-3 倍的加速,而输出仍然与标准 T5X 实现相同。
Nov, 2022
介绍了一种基于 “假设采样” 的算法,将 Transformer 解码加速 2 至 2.5 倍,同时保持样本质量和预测分布。
Feb, 2023
通过使用并行解码,我们提出了一种使用单个模型从多个分词进行生成的方法,无需额外的计算成本或第二个模型,并表现出了令人期待的性能(最多可提高 30% 的速度),只需要最少 O (d_{emb}) 个附加参数。
Nov, 2023
使用 SpecExec 方法,在消费级 GPU 上以每秒 4-6 个令牌(4 位量化)或每秒 2-3 个令牌(16 位权重)的速度对包含 50 多亿参数的大语言模型进行了推理。
Jun, 2024
利用大型语言模型(LLM)的最新进展,我们提出了一种新颖的算法 —— 分阶段投机性解码,以加速小批量、设备上的 LLM 推断。我们通过改进投机性解码的前期工作解决了小批量推断的低算术密度问题。首先,我们将投机性批量重新组织为一棵树,这降低了生成成本并增加了每批预期的标记数。其次,我们添加了第二阶段的投机性解码。综合而言,我们在完美地保留输出质量的同时,将单批解码延迟降低了 3.16 倍,使用了一个 762M 参数的 GPT-2-L 模型。
Aug, 2023
通过使用预测值,基于 Transformer 架构的生成式大型语言模型 (SPEED) 能够并行地执行当前令牌以及多个未来令牌,从而提高推理效率,减少延迟,并在保持模型准确性的同时实现支持参数共享的更深层次解码器的训练。
减少大型语言模型(LLM)的推理延迟至关重要,我们开发了 SmartSpec 动态框架,根据一个新的名为 goodput 的度量来动态确定每个请求的最佳推测长度,从而将平均请求延迟降低了多达 3.2 倍。
Speculative Streaming 是一种单一模型的推测解码方法,通过将起草融入目标模型,将微调目标从下一个标记预测改为未来 n-gram 预测的目标,以在总结、结构查询和语义表示等多个任务中提高 1.8-3.1 倍的解码速度,而不损失生成质量。此外,Speculative Streaming 在参数效率方面表现出色,与 Medusa-style 架构相比,使用的额外参数较少,适用于资源受限的设备。
Feb, 2024