减少大型语言模型(LLM)的推理延迟至关重要,我们开发了 SmartSpec 动态框架,根据一个新的名为 goodput 的度量来动态确定每个请求的最佳推测长度,从而将平均请求延迟降低了多达 3.2 倍。
Jun, 2024
通过使用较小且更快的草稿模型,推测解码可减少目标大型语言模型的推理延迟。本文以候选长度 K 作为超参数进行研究,并将其形式化为马尔科夫决策过程,理论上证明了最优策略采用阈值策略,在预测的被拒概率超过阈值时终止当前推测。基于这一理论,我们提出了 SpecDec++,它通过使用训练好的接受概率预测模块来自适应地确定候选长度。在实验中,我们将 SpecDec++ 应用于 llama-2-chat 模型对 Alpaca、GSM8K 和 HumanEval 数据集进行测试,结果显示我们的自适应方法可以实现 2.04 倍至 2.26 倍的加速。
May, 2024
使用分析模型来选择适合特定工作负载的合适草稿模型,以提高推理速度并设计适用于 LLaMA-65B 的新草稿模型,能够提供比现有草稿模型高 30% 的吞吐量。
Feb, 2024
通过提出实例、讨论关键方面,总结了 Speculative Decoding 的定义、技术、挑战和未来方向,以加速 LLM 推理过程。
Jan, 2024
部署异步大型语言模型(LLMs)的代价高昂,为了减少成本,本文介绍了一种新的多目标场景的 Draft 模型部署方法,并提出了一种更高效的排序 Speculative Decoding 机制,该方法在多目标环境下优于基线模型。
Jul, 2024
通过对大型语言模型进行推测性对比解码,提高了生成质量的同时节省了计算资源。
Nov, 2023
通过在线推理和训练预估模型,我们提出了一种在线推理预估解码技术,用于加速大型语言模型的推理过程,并减少延迟。
Oct, 2023
对于大型语言模型(LLMs)如 GPT,提出了一种新的自适应推测解码策略,通过批处理和推测解码技术提高 GPU 硬件利用率,并在各种 LLM 模型和 GPU 架构上进行了广泛的特征分析,结果显示新方法能够达到与固定长度推测解码方案相等或更好的性能。
利用大型语言模型(LLM)的最新进展,我们提出了一种新颖的算法 —— 分阶段投机性解码,以加速小批量、设备上的 LLM 推断。我们通过改进投机性解码的前期工作解决了小批量推断的低算术密度问题。首先,我们将投机性批量重新组织为一棵树,这降低了生成成本并增加了每批预期的标记数。其次,我们添加了第二阶段的投机性解码。综合而言,我们在完美地保留输出质量的同时,将单批解码延迟降低了 3.16 倍,使用了一个 762M 参数的 GPT-2-L 模型。
Aug, 2023
Speculative Streaming 是一种单一模型的推测解码方法,通过将起草融入目标模型,将微调目标从下一个标记预测改为未来 n-gram 预测的目标,以在总结、结构查询和语义表示等多个任务中提高 1.8-3.1 倍的解码速度,而不损失生成质量。此外,Speculative Streaming 在参数效率方面表现出色,与 Medusa-style 架构相比,使用的额外参数较少,适用于资源受限的设备。