Apr, 2023

参考推理:大语言模型的无损加速

TL;DRLLMA 是一种基于并行计算的 LLM 加速器,通过在一次解码步骤中选择参考文本并将其标记复制到解码器,即可实现对 LLM 的推理加速并提高计算并行性,使其在多种实际生成场景中生成结果与贪婪解码相同,达到 2 倍以上的加速。