OPT-Tree 算法通过构建自适应和可扩展的缓冲树结构,实现了一步生成多个标记,从而解决了自回归语言模型中推理效率受限的问题。该算法优于现有的缓冲结构,与自回归解码相比,实现了最高 3.2 倍的加速比。
Jun, 2024
本文提出了一种名为 “speculative decoding” 的算法,通过逐步并行地计算,采样自动回归模型可更快,同时采用了采样方法和一些新的技术,使得不改变分布的情况下,从大模型中精确解码变得更快,从而实现了不需要重新训练或架构更改即可支持现有模型的加速。在 T5-XXL 模型上的比较表明,该方法可以实现 2-3 倍的加速,而输出仍然与标准 T5X 实现相同。
Nov, 2022
大型语言模型在各种自然语言处理任务中展现出令人印象深刻的能力,但是自回归生成文本却非常耗时。提高速度的一个方法是进行猜测性解码,即由快速的草稿模型生成候选分段(一系列令牌),然后由目标模型并行验证。然而,候选标记的接受率受到模型、数据集和解码设置等多个因素的限制。本文提出了从草稿模型中采样多个候选分段,并将它们分批进行验证的方法。我们设计了高效的多候选验证算法,同时保持目标模型的分布。我们的方法在多个数据集和模型上都展现出显著的接受率改进,始终优于标准的猜测性解码。
Jan, 2024
介绍了一种基于 “假设采样” 的算法,将 Transformer 解码加速 2 至 2.5 倍,同时保持样本质量和预测分布。
Feb, 2023
我们提出了一个更好的草稿验证算法,通过块级最优输送问题来实现,与令牌级别验证算法相比,在一系列任务和数据集中节约了墙钟速度。
Mar, 2024
使用分析模型来选择适合特定工作负载的合适草稿模型,以提高推理速度并设计适用于 LLaMA-65B 的新草稿模型,能够提供比现有草稿模型高 30% 的吞吐量。
Feb, 2024
部署异步大型语言模型(LLMs)的代价高昂,为了减少成本,本文介绍了一种新的多目标场景的 Draft 模型部署方法,并提出了一种更高效的排序 Speculative Decoding 机制,该方法在多目标环境下优于基线模型。
Jul, 2024
通过在线推理和训练预估模型,我们提出了一种在线推理预估解码技术,用于加速大型语言模型的推理过程,并减少延迟。
Oct, 2023
通过使用并行解码,我们提出了一种使用单个模型从多个分词进行生成的方法,无需额外的计算成本或第二个模型,并表现出了令人期待的性能(最多可提高 30% 的速度),只需要最少 O (d_{emb}) 个附加参数。
Nov, 2023
递归推测解码是一种基于树的方法,利用抽样生成多样性的草稿令牌序列来加速大型语言模型,从而在固定的草稿序列长度和计算预算下取得了优越性能。