Feb, 2024

递归推测解码:通过无替换抽样加速 LLM 推理

TL;DR递归推测解码是一种基于树的方法,利用抽样生成多样性的草稿令牌序列来加速大型语言模型,从而在固定的草稿序列长度和计算预算下取得了优越性能。