Sep, 2023

草案和验证:通过自我推理解码实现无损大语言模型的加速

TL;DR我们提出了一种新颖的推理方案,自我推测解码,用于加速大型语言模型(LLMs),无需辅助模型。该方法通过两个阶段的过程来实现:草稿和验证。草稿阶段以稍低质量但更快的速度生成草稿标记,通过在草稿期间选择性跳过某些中间层来实现。然后,验证阶段使用原始 LLM 在一次前向传递中验证那些草稿输出标记。该过程确保最终输出与未经修改的 LLM 产生的输出完全相同,从而保持输出质量。所提出的方法不需要额外的神经网络训练和额外的内存占用,是一种即插即用和经济高效的推理加速解决方案。与 LLaMA-2 及其微调模型的基准测试表明,加速比最高可达 1.73 倍。