Feb, 2024

探讨推测性解码

TL;DR使用分析模型来选择适合特定工作负载的合适草稿模型,以提高推理速度并设计适用于 LLaMA-65B 的新草稿模型,能够提供比现有草稿模型高 30% 的吞吐量。