SkipDecode: 自回归跳过解码与批处理和缓存的高效 LLM 推理

Jul, 2023

SkipDecode: 自回归跳过解码与批处理和缓存的高效 LLM 推理

SkipDecode: Autoregressive Skip Decoding with Batching and Caching for Efficient LLM Inference

Luciano Del Corro, Allie Del Giorno, Sahaj Agarwal, Bin Yu, Ahmed Awadallah...

TL;DR通过 SkipDecode 方法在批处理推理和 KV 缓存优化技术的直接兼容性下，实现大语言模型的速度提升 2 倍至 5 倍，同时保持很小的回归，解决了提前终止计算的先前工作中存在的限制。

Abstract

Autoregressive large language models (LLMs) have made remarkable progress in various natural language generation tasks. However, they incur high computation cost and latency resulting from the autoregressive token-by-to

large language models autoregressive token-by-token generation early-exit strategies batch inferencing kv caching

发现论文，激发创造

层级跳过：在推断中实现早期退出和自我推测解码

通过应用层丢弃和早期退出损失的训练技术，在推理过程中加快大型语言模型的速度，并推出了一种新颖的自我推测编码解决方案，该解决方案减少了内存占用，并在不同训练任务上实现了高达 2.16 倍的加速。

Apr, 2024

高效级联跳跃解码的自回归文本生成

通过提出一种名为分级跳跃解码（HSD）的新型解码策略，我们可以减少计算工作量和分配计算资源，从而在效率和文本质量之间取得平衡，实验证明 HSD 在文本生成任务中具有优势。

Mar, 2024

FFN-SkipLLM：自适应前馈跳过的自回归解码中的隐藏宝石

通过使用 FFN-SkipLLM 方法，可以减少 FFN 块数量来提高自回归解码速度，并在知识密集型生成任务上保持较好性能。

Apr, 2024

利用统一的层跳过策略加速大型语言模型的推理

提出了一种统一的层跳过策略，通过选择要跳过的层数来达到目标加速比，从而显著提升了推理性能和实际模型吞吐量。

Apr, 2024

大语言模型推理中的效率增强：专门解码的综合调查

通过提出实例、讨论关键方面，总结了 Speculative Decoding 的定义、技术、挑战和未来方向，以加速 LLM 推理过程。

Jan, 2024

高效译码的投机流水线执行

通过使用预测值，基于 Transformer 架构的生成式大型语言模型 (SPEED) 能够并行地执行当前令牌以及多个未来令牌，从而提高推理效率，减少延迟，并在保持模型准确性的同时实现支持参数共享的更深层次解码器的训练。

Oct, 2023

加速 LLM 推断的分阶段推测解码

利用大型语言模型（LLM）的最新进展，我们提出了一种新颖的算法 —— 分阶段投机性解码，以加速小批量、设备上的 LLM 推断。我们通过改进投机性解码的前期工作解决了小批量推断的低算术密度问题。首先，我们将投机性批量重新组织为一棵树，这降低了生成成本并增加了每批预期的标记数。其次，我们添加了第二阶段的投机性解码。综合而言，我们在完美地保留输出质量的同时，将单批解码延迟降低了 3.16 倍，使用了一个 762M 参数的 GPT-2-L 模型。

Aug, 2023

利用前瞻解码打破 LLM 推断的顺序依赖性

使用准确并行的预读解码算法加速大型语言模型的自回归解码，从而减少总解码步骤，提高解码速度并充分发挥现代加速器的并行处理能力。

Feb, 2024

自动生成巨大，快速生成：快速自回归解码的 LLM-to-SLM

我们提出了一种混合方法，结合不同规模的语言模型以提高自回归解码的效率，同时保持高性能。该方法利用一个预先训练的冻结语言模型来编码所有提示标记，然后使用生成的表示来引导一个较小的语言模型来更高效地生成响应。与 LLM 相比，我们的方法在翻译和摘要任务中实现了高达 4 倍的速度提升，但只有 1-2% 的性能损失。

Feb, 2024

具备快速且稳健的同时并行解码的自回归语言模型提前退出框架

为了解决自回归语言模型的高推理延迟，本研究提出了一个快速而健壮的提前退出 (FREE) 框架，其中包括一个浅层 - 深层模块和一个同步并行解码。通过与先前堆叠的提前退出的令牌进行解码过程的同步，我们的框架实现了更快的推理。此外，由于并行解码可以观察浅层和深层模型的预测结果，我们提出了一个新颖的自适应阈值估计器，利用 Beta 混合模型来确定合适的置信阈值。通过广泛的生成任务的实证，我们证明了我们提出的框架的优越性。

Oct, 2023