Jan, 2024

APAR: LLMs 可以进行自动并行自回归解码

TL;DR通过并行自回归生成的方法以及与推理解码相结合,可以显著提高大型语言模型的生成速度和性能。