自适应草稿长度的并行推测性解码
利用大型语言模型(LLM)的最新进展,我们提出了一种新颖的算法——分阶段投机性解码,以加速小批量、设备上的LLM推断。我们通过改进投机性解码的前期工作解决了小批量推断的低算术密度问题。首先,我们将投机性批量重新组织为一棵树,这降低了生成成本并增加了每批预期的标记数。其次,我们添加了第二阶段的投机性解码。综合而言,我们在完美地保留输出质量的同时,将单批解码延迟降低了3.16倍,使用了一个762M参数的GPT-2-L模型。
Aug, 2023
递归推测解码是一种基于树的方法,利用抽样生成多样性的草稿令牌序列来加速大型语言模型,从而在固定的草稿序列长度和计算预算下取得了优越性能。
Feb, 2024
通过引入推测执行的概念,对大型语言模型进行推理加速,提升解码速度,该研究综述了当前推测执行在大型语言模型中的应用, 并提出了关键挑战和未来发展方向。
Apr, 2024
通过使用较小且更快的草稿模型,推测解码可减少目标大型语言模型的推理延迟。本文以候选长度K作为超参数进行研究,并将其形式化为马尔科夫决策过程,理论上证明了最优策略采用阈值策略,在预测的被拒概率超过阈值时终止当前推测。基于这一理论,我们提出了SpecDec++,它通过使用训练好的接受概率预测模块来自适应地确定候选长度。在实验中,我们将SpecDec++应用于llama-2-chat模型对Alpaca、GSM8K和HumanEval数据集进行测试,结果显示我们的自适应方法可以实现2.04倍至2.26倍的加速。
May, 2024
在大型语言模型中,我们提出了一种新的方法,即具有无损加速的早期退出推理(EESD),通过在前N层后引入早期退出结构,利用语言模型的一部分生成初步令牌,并通过自蒸馏方法提高初步令牌的质量。我们还引入了一种新的采样机制,利用汤普森采样调节生成过程,自动确定每一轮的初步令牌数量。实验结果表明,与先前的方法相比,我们的方法在解码令牌时具有明显的加速效果。
Jun, 2024
OPT-Tree算法通过构建自适应和可扩展的缓冲树结构,实现了一步生成多个标记,从而解决了自回归语言模型中推理效率受限的问题。该算法优于现有的缓冲结构,与自回归解码相比,实现了最高3.2倍的加速比。
Jun, 2024
本文探讨了大型语言模型推理过程中低效性的问题,提出了一种新的动态宽度推测性束解码(DSBD)方法,以应对推测解码与束采样融合中的诸多挑战。该方法通过优化束的数量和改进验证机制,提高了推理速度并保证了输出质量,具有重要的潜在应用价值。
Sep, 2024