May, 2023

SpecInfer: 使用推测推理和令牌树验证加速生成式语言模型服务

TL;DR本文介绍了 SpecInfer,一种使用预测推断和令牌树验证加速生成式大型语言模型推断的 LLM 服务系统,其使用多个小型语言模型共同预测 LLM 的输出,并使用一种新的基于树的并行解码机制验证所有候选的令牌序列的正确性。通过使用 LLM 作为令牌树验证器,而不是增量解码器,SpecInfer 显着降低了用于服务 LLM 的端到端延迟和计算要求,同时确保保持模型质量。