走向快速推理：探索与改进分块并行草稿

Apr, 2024

走向快速推理：探索与改进分块并行草稿

Towards Fast Inference: Exploring and Improving Blockwise Parallel Drafts

Taehyeon Kim, Ananda Theertha Suresh, Kishore Papineni, Michael Riley, Sanjiv Kumar...

TL;DR通过分析和改进块并行解码草稿，提高语言模型的推理速度和验证前缀长度。

Abstract

Despite the remarkable strides made by autoregressive language models, their potential is often hampered by the slow inference speeds inherent in sequential token generation. blockwise parallel decoding (BPD) was

autoregressive language models sequential token generation blockwise parallel decoding inference speed n-gram or neural language models

发现论文，激发创造

深度自回归模型的块并行解码

该论文提出了一种新颖的分块并行解码方案，来提高序列生成的速度，并在机器翻译和图像超分辨率任务上通过实验验证了该方法的有效性。

Nov, 2018

ProPD: 动态令牌树剪枝和生成用于 LLM 并行解码

提出了一种基于动态标记树修剪和生成的高效的大型语言模型（LLM）并行解码框架 ProPD，它通过提高并行性和效率来改进解码的性能和上下文关系维护问题，并在各种批量大小、序列长度和任务等方面最大化整体效率。在各种数据集、LLM 和批量大小上验证 ProPD，并证明其性能始终优于现有的解码算法 1.1-3.2 倍。

Feb, 2024

迈向快速多语言 LLM 推断：投机式解码和专业的起草机

大语言模型在自然语言处理中产生了革命性的作用，并且扩展了它在不同商业应用中的适用性。然而，这些模型在多语言环境中的部署受到推理时间的限制。为了缓解这一挑战，本文探讨了使用推测解码的助理模型的训练方法，其中助理模型用于草拟未来的令牌，并通过目标语言模型进行验证。我们表明，通过有针对性的预训练和微调策略优化的专门针对语言的草拟模型，在推理时间上显著减少了时间，相较于以前的方法。我们在推理时间、领域外优化以及 GPT-4o 评估等方面验证了这些模型。

Jun, 2024

大型语言模型的无损加速通过自适应 N-gram 并行解码

通过引入自适应 N-gram 并行解码（ANPD），我们提出了一种创新的无损方法，可以在保持性能的同时加速推理。ANPD 采用两阶段方法，通过一种快速草稿阶段和验证阶段，使生成多个标记成为可能，从而提高处理速度并减少推理延迟。ANPD 消除了重新训练或额外 GPU 内存的需求，使其成为一种高效的即插即用增强技术。在实验中，LLaMA 等模型的速度改进达到了 3.67 倍，验证了我们提出的 ANPD 方法的有效性。

Apr, 2024

高效译码的投机流水线执行

通过使用预测值，基于 Transformer 架构的生成式大型语言模型 (SPEED) 能够并行地执行当前令牌以及多个未来令牌，从而提高推理效率，减少延迟，并在保持模型准确性的同时实现支持参数共享的更深层次解码器的训练。

Oct, 2023

大小变压器解码器

提出了 Big Little Decoder (BiLD) 框架来提高文本生成的推理效率和延迟，通过两个不同大小的模型协同生成文本。在各种文本生成情景下应用 BiLD，如机器翻译、摘要生成和语言建模，在 NVIDIA Titan Xp GPU 上实现高达 2.38 倍的加速且不对性能造成显著的损失。

Feb, 2023

通过并行解码加速 Transformer 推理以进行翻译

本文提出使用雅可比和高斯 - 塞德尔迭代方法对机器翻译的标准贪心自回归解码进行并行重构，以解决 transformers 对机器翻译的效率问题，实现了速度提高，而翻译质量保持。三种并行解码算法被提出并在不同语言和模型上进行了测试，速度提升最多可达 38％，在并行资源上实现的速度几乎达到 2 倍。同时，为了更好地理解模型的条件依赖关系和检查解码过程，提出了解码依赖图可视化器（DDGviz）

May, 2023

用于长上下文大模型的分块并行 Transformer

Blockwise Parallel Transformer (BPT) is a distinct approach to address memory demands posed by the self-attention mechanism and the large feedforward network in Transformers, which enables training sequences up to 32 times longer than vanilla Transformers and 2 to 4 times longer than previous memory-efficient methods, and improves performance in language modeling and reinforcement learning tasks.

May, 2023

加速 LLM 推断的分阶段推测解码

利用大型语言模型（LLM）的最新进展，我们提出了一种新颖的算法 —— 分阶段投机性解码，以加速小批量、设备上的 LLM 推断。我们通过改进投机性解码的前期工作解决了小批量推断的低算术密度问题。首先，我们将投机性批量重新组织为一棵树，这降低了生成成本并增加了每批预期的标记数。其次，我们添加了第二阶段的投机性解码。综合而言，我们在完美地保留输出质量的同时，将单批解码延迟降低了 3.16 倍，使用了一个 762M 参数的 GPT-2-L 模型。

Aug, 2023

用于推理高效 LLMs 的串联变压器

使用 Tandem transformers 架构，通过将小型自回归模型与以块模式操作的大型模型结合，以提高预测准确性并加快推理速度。在预训练数据集上，Tandem 模型显示出对下一个标记预测准确性的 3.3％改进，相比于性能相当的 PaLM2-Otter 模型，速度提升了 1.16 倍，同时在维持相同下游任务准确性的前提下，通过将 Tandem 模型引入到推测解码框架中，以实现大幅加速（比使用单独的 PaLM2-Gecko 模型快约 1.14 倍）。

Feb, 2024