动态宽度推测性束解码用于高效大型语言模型推理
利用大型语言模型(LLM)的最新进展,我们提出了一种新颖的算法——分阶段投机性解码,以加速小批量、设备上的LLM推断。我们通过改进投机性解码的前期工作解决了小批量推断的低算术密度问题。首先,我们将投机性批量重新组织为一棵树,这降低了生成成本并增加了每批预期的标记数。其次,我们添加了第二阶段的投机性解码。综合而言,我们在完美地保留输出质量的同时,将单批解码延迟降低了3.16倍,使用了一个762M参数的GPT-2-L模型。
Aug, 2023
对于大型语言模型(LLMs)如GPT,提出了一种新的自适应推测解码策略,通过批处理和推测解码技术提高GPU硬件利用率,并在各种LLM模型和GPU架构上进行了广泛的特征分析,结果显示新方法能够达到与固定长度推测解码方案相等或更好的性能。
Oct, 2023
本研究旨在加快具有数十亿参数的大型语言模型的推理速度。我们提出了一个名为SPACE(Smart Parallel Auto-Correct decoding)的创新方法,用于实现LLMs的无损加速。通过集成半自回归推理和猜测解码功能,SPACE使得自回归LLMs能够并行生成和验证令牌。此外,一种自动纠正解码算法在单个模型调用中便利地实现了令牌序列的同时生成和验证。通过对多个LLMs进行广泛实验,SPACE在保持输出质量的同时,实现了2.7倍至4.0倍的推理加速。
Feb, 2024
递归推测解码是一种基于树的方法,利用抽样生成多样性的草稿令牌序列来加速大型语言模型,从而在固定的草稿序列长度和计算预算下取得了优越性能。
Feb, 2024
通过引入推测执行的概念,对大型语言模型进行推理加速,提升解码速度,该研究综述了当前推测执行在大型语言模型中的应用, 并提出了关键挑战和未来发展方向。
Apr, 2024
提出一种新颖的并行提示解码方法,仅需$0.0002$%的可训练参数,在16小时内可在单个A100-40GB GPU上进行高效训练,大大提高多令牌生成的接受率以及未来时间步骤的输出生成速度。
May, 2024
在大型语言模型中,我们提出了一种新的方法,即具有无损加速的早期退出推理(EESD),通过在前N层后引入早期退出结构,利用语言模型的一部分生成初步令牌,并通过自蒸馏方法提高初步令牌的质量。我们还引入了一种新的采样机制,利用汤普森采样调节生成过程,自动确定每一轮的初步令牌数量。实验结果表明,与先前的方法相比,我们的方法在解码令牌时具有明显的加速效果。
Jun, 2024
本研究解决了现有推测性解码方法中目标模型与草稿模型异步执行导致的互等问题。提出的PEARL框架通过预验证和后验证策略并行化草稿阶段和验证阶段,实现了适应性草稿长度,从而显著提高了解码速度,实验表明相较于传统方法,速度提升可达3.79倍。
Aug, 2024