利用前瞻解码打破 LLM 推断的顺序依赖性
通过结合线性注意力和推测解码,我们对现有线性注意力方法在自回归大语言模型中的功效进行了全面研究,并引入了一种增强的线性化语言模型,实验证明其在训练和生成过程中比先前的线性注意力方法更有效率。
Jun, 2024
我们提出了一种新颖的推理方案,自我推测解码,用于加速大型语言模型(LLMs),无需辅助模型。该方法通过两个阶段的过程来实现:草稿和验证。草稿阶段以稍低质量但更快的速度生成草稿标记,通过在草稿期间选择性跳过某些中间层来实现。然后,验证阶段使用原始 LLM 在一次前向传递中验证那些草稿输出标记。该过程确保最终输出与未经修改的 LLM 产生的输出完全相同,从而保持输出质量。所提出的方法不需要额外的神经网络训练和额外的内存占用,是一种即插即用和经济高效的推理加速解决方案。与 LLaMA-2 及其微调模型的基准测试表明,加速比最高可达 1.73 倍。
Sep, 2023
我们提出了一种混合方法,结合不同规模的语言模型以提高自回归解码的效率,同时保持高性能。该方法利用一个预先训练的冻结语言模型来编码所有提示标记,然后使用生成的表示来引导一个较小的语言模型来更高效地生成响应。与 LLM 相比,我们的方法在翻译和摘要任务中实现了高达 4 倍的速度提升,但只有 1-2% 的性能损失。
Feb, 2024
通过 SkipDecode 方法在批处理推理和 KV 缓存优化技术的直接兼容性下,实现大语言模型的速度提升 2 倍至 5 倍,同时保持很小的回归,解决了提前终止计算的先前工作中存在的限制。
Jul, 2023
利用大型语言模型(LLM)的最新进展,我们提出了一种新颖的算法 —— 分阶段投机性解码,以加速小批量、设备上的 LLM 推断。我们通过改进投机性解码的前期工作解决了小批量推断的低算术密度问题。首先,我们将投机性批量重新组织为一棵树,这降低了生成成本并增加了每批预期的标记数。其次,我们添加了第二阶段的投机性解码。综合而言,我们在完美地保留输出质量的同时,将单批解码延迟降低了 3.16 倍,使用了一个 762M 参数的 GPT-2-L 模型。
Aug, 2023
本文提出使用雅可比和高斯 - 塞德尔迭代方法对机器翻译的标准贪心自回归解码进行并行重构,以解决 transformers 对机器翻译的效率问题,实现了速度提高,而翻译质量保持。三种并行解码算法被提出并在不同语言和模型上进行了测试,速度提升最多可达 38%,在并行资源上实现的速度几乎达到 2 倍。同时,为了更好地理解模型的条件依赖关系和检查解码过程,提出了解码依赖图可视化器(DDGviz)
May, 2023