Jan, 2024

Medusa: 多解码头简单的 LLM 推理加速框架

TL;DR在这篇论文中,我们介绍了一种名为 Medusa 的方法,通过增加额外的解码头来预测并行的多个后续标记,从而提高 LLM 推理的效率,并减少所需的解码步骤。通过两个级别的精细调整程序,Medusa 可以满足不同用例的需求。此外,我们还提出了几种扩展方法,包括自我蒸馏和典型接受方案,以提高 Medusa 的效用。我们的实验证明,Medusa-1 可以在不损害生成质量的情况下实现超过 2.2 倍的加速,而 Medusa-2 进一步提高了加速度,可达到 2.3-3.6 倍。