大型语言模型的无损加速通过自适应 N-gram 并行解码

Apr, 2024

大型语言模型的无损加速通过自适应 N-gram 并行解码

Lossless Acceleration of Large Language Model via Adaptive N-gram Parallel Decoding

Jie Ou, Yueming Chen, Wenhong Tian

TL;DR通过引入自适应 N-gram 并行解码（ANPD），我们提出了一种创新的无损方法，可以在保持性能的同时加速推理。ANPD 采用两阶段方法，通过一种快速草稿阶段和验证阶段，使生成多个标记成为可能，从而提高处理速度并减少推理延迟。ANPD 消除了重新训练或额外 GPU 内存的需求，使其成为一种高效的即插即用增强技术。在实验中，LLaMA 等模型的速度改进达到了 3.67 倍，验证了我们提出的 ANPD 方法的有效性。

Abstract

While large language models (LLMs) have shown remarkable abilities, they are hindered by significant resource consumption and considerable latenc

large language models adaptive n-gram parallel decoding resource consumption latency inference speed

发现论文，激发创造

PaDeLLM-NER：大型语言模型中的并行解码用于命名实体识别

该研究旨在通过大型语言模型（LLM）减少命名实体识别（NER）的生成延迟。通过并行解码技术，该方法在不需要额外模块或架构修改的情况下实现了对 NER 中所有提及的同时解码，从而提高了推理速度，同时保持了与最先进方法相当的预测质量。

Feb, 2024

硬件感知并行提示解码用于 LLM 推理的内存高效加速

提出一种新颖的并行提示解码方法，仅需 $0.0002$% 的可训练参数，在 16 小时内可在单个 A100-40GB GPU 上进行高效训练，大大提高多令牌生成的接受率以及未来时间步骤的输出生成速度。

May, 2024

APAR: LLMs 可以进行自动并行自回归解码

通过并行自回归生成的方法以及与推理解码相结合，可以显著提高大型语言模型的生成速度和性能。

Jan, 2024

通过隐藏传输进行并行解码以实现无损大型语言模型加速

大型语言模型的并行解码技术，包括隐藏状态传递、树状注意机制和加速技术等，提高了模型推理速度和生成准确性。

Apr, 2024

ProPD: 动态令牌树剪枝和生成用于 LLM 并行解码

提出了一种基于动态标记树修剪和生成的高效的大型语言模型（LLM）并行解码框架 ProPD，它通过提高并行性和效率来改进解码的性能和上下文关系维护问题，并在各种批量大小、序列长度和任务等方面最大化整体效率。在各种数据集、LLM 和批量大小上验证 ProPD，并证明其性能始终优于现有的解码算法 1.1-3.2 倍。

Feb, 2024

基于锚定的大型语言模型

本研究引入了基于锚点的 LLM (AnLLM) 模型，该模型利用了一种创新的基于锚点的自注意力网络 (AnSAN) 和一种基于锚点的推理策略，将序列信息压缩到锚点令牌中，从而减少键 / 值缓存并提高推理效率。实验证明，AnLLM 在保持可比精度的同时缩减了 99% 的键 / 值缓存，并实现了高达 3.5 倍的更快推理速度。尽管在精度上有轻微折衷，AnLLM 在计算效率和资源利用方面具有显著改善，展示了锚点式注意力方法在实际应用中对于实时推理的潜力。

Feb, 2024

草案和验证：通过自我推理解码实现无损大语言模型的加速

我们提出了一种新颖的推理方案，自我推测解码，用于加速大型语言模型（LLMs），无需辅助模型。该方法通过两个阶段的过程来实现：草稿和验证。草稿阶段以稍低质量但更快的速度生成草稿标记，通过在草稿期间选择性跳过某些中间层来实现。然后，验证阶段使用原始 LLM 在一次前向传递中验证那些草稿输出标记。该过程确保最终输出与未经修改的 LLM 产生的输出完全相同，从而保持输出质量。所提出的方法不需要额外的神经网络训练和额外的内存占用，是一种即插即用和经济高效的推理加速解决方案。与 LLaMA-2 及其微调模型的基准测试表明，加速比最高可达 1.73 倍。

Sep, 2023

走向快速推理：探索与改进分块并行草稿

通过分析和改进块并行解码草稿，提高语言模型的推理速度和验证前缀长度。

Apr, 2024

参考推理：大语言模型的无损加速

LLMA 是一种基于并行计算的 LLM 加速器，通过在一次解码步骤中选择参考文本并将其标记复制到解码器，即可实现对 LLM 的推理加速并提高计算并行性，使其在多种实际生成场景中生成结果与贪婪解码相同，达到 2 倍以上的加速。

Apr, 2023

以 LLM 为基础通过并行解码词汇单元实现思考速度解码

通过引入词汇单元解码（LUD）方法，本文在不牺牲输出质量的情况下加速解码过程，有效减少生成速度而仍保持生成质量，并提出 LUD 可能为未来的语言模型定义一种新的解码范式，提升其应用的适用性。

May, 2024