加速大型语言模型推理的多令牌联合预测解码
利用大型语言模型(LLM)的最新进展,我们提出了一种新颖的算法——分阶段投机性解码,以加速小批量、设备上的LLM推断。我们通过改进投机性解码的前期工作解决了小批量推断的低算术密度问题。首先,我们将投机性批量重新组织为一棵树,这降低了生成成本并增加了每批预期的标记数。其次,我们添加了第二阶段的投机性解码。综合而言,我们在完美地保留输出质量的同时,将单批解码延迟降低了3.16倍,使用了一个762M参数的GPT-2-L模型。
Aug, 2023
本研究旨在加快具有数十亿参数的大型语言模型的推理速度。我们提出了一个名为SPACE(Smart Parallel Auto-Correct decoding)的创新方法,用于实现LLMs的无损加速。通过集成半自回归推理和猜测解码功能,SPACE使得自回归LLMs能够并行生成和验证令牌。此外,一种自动纠正解码算法在单个模型调用中便利地实现了令牌序列的同时生成和验证。通过对多个LLMs进行广泛实验,SPACE在保持输出质量的同时,实现了2.7倍至4.0倍的推理加速。
Feb, 2024
递归推测解码是一种基于树的方法,利用抽样生成多样性的草稿令牌序列来加速大型语言模型,从而在固定的草稿序列长度和计算预算下取得了优越性能。
Feb, 2024
通过引入推测执行的概念,对大型语言模型进行推理加速,提升解码速度,该研究综述了当前推测执行在大型语言模型中的应用, 并提出了关键挑战和未来发展方向。
Apr, 2024
提出一种新颖的并行提示解码方法,仅需$0.0002$%的可训练参数,在16小时内可在单个A100-40GB GPU上进行高效训练,大大提高多令牌生成的接受率以及未来时间步骤的输出生成速度。
May, 2024
在大型语言模型中,我们提出了一种新的方法,即具有无损加速的早期退出推理(EESD),通过在前N层后引入早期退出结构,利用语言模型的一部分生成初步令牌,并通过自蒸馏方法提高初步令牌的质量。我们还引入了一种新的采样机制,利用汤普森采样调节生成过程,自动确定每一轮的初步令牌数量。实验结果表明,与先前的方法相比,我们的方法在解码令牌时具有明显的加速效果。
Jun, 2024
部署异步大型语言模型(LLMs)的代价高昂,为了减少成本,本文介绍了一种新的多目标场景的Draft模型部署方法,并提出了一种更高效的排序Speculative Decoding机制,该方法在多目标环境下优于基线模型。
Jul, 2024
本研究解决了大型语言模型推理延迟的问题,提出了一种新颖的标记回收方法。通过利用解码过程中生成的候选标记,构建了一个邻接矩阵,并采用广度优先搜索算法构建草稿树,从而有效提升推理速度。实验证明,此方法在各类大型语言模型上实现了约2倍的速度提升,并显著优于现有的无训练方法和训练方法。
Aug, 2024
本文探讨了大型语言模型推理过程中低效性的问题,提出了一种新的动态宽度推测性束解码(DSBD)方法,以应对推测解码与束采样融合中的诸多挑战。该方法通过优化束的数量和改进验证机制,提高了推理速度并保证了输出质量,具有重要的潜在应用价值。
Sep, 2024