Feb, 2024

生成遇见验证:智能并行自动校正解码加速大型语言模型推理

TL;DR本研究旨在加快具有数十亿参数的大型语言模型的推理速度。我们提出了一个名为 SPACE(Smart Parallel Auto-Correct decoding)的创新方法,用于实现 LLMs 的无损加速。通过集成半自回归推理和猜测解码功能,SPACE 使得自回归 LLMs 能够并行生成和验证令牌。此外,一种自动纠正解码算法在单个模型调用中便利地实现了令牌序列的同时生成和验证。通过对多个 LLMs 进行广泛实验,SPACE 在保持输出质量的同时,实现了 2.7 倍至 4.0 倍的推理加速。