APAR: LLMs 可以进行自动并行自回归解码

Jan, 2024

APAR: LLMs 可以进行自动并行自回归解码

APAR: LLMs Can Do Auto-Parallel Auto-Regressive Decoding

Mingdao Liu, Aohan Zeng, Bowen Wang, Peng Zhang, Jie Tang...

TL;DR通过并行自回归生成的方法以及与推理解码相结合，可以显著提高大型语言模型的生成速度和性能。

Abstract

The massive adoption of large language models (LLMs) demands efficient deployment strategies. However, the auto-regressive decoding process, which is fundamental to how most LLMs generate text, poses challenges t

large language models auto-regressive decoding parallel auto-regressive generation speculative decoding serving frameworks

发现论文，激发创造

AUTOPARLLM: 使用大型语言模型的 GNN 引导自动代码并行化

AUTOPARLLM 是一个用于自动发现并生成顺序程序的并行版本的框架，通过使用异构图神经网络（GNN）进行并行性发现和并行模式检测，并结合 LLM 代码生成器，能够有效改善并行代码生成任务中的多个代码生成指标，并且通过引入 OMPScore 衡量方法，提供了一种优于现有指标的评估生成代码质量的方法。

Oct, 2023

自动生成巨大，快速生成：快速自回归解码的 LLM-to-SLM

我们提出了一种混合方法，结合不同规模的语言模型以提高自回归解码的效率，同时保持高性能。该方法利用一个预先训练的冻结语言模型来编码所有提示标记，然后使用生成的表示来引导一个较小的语言模型来更高效地生成响应。与 LLM 相比，我们的方法在翻译和摘要任务中实现了高达 4 倍的速度提升，但只有 1-2% 的性能损失。

Feb, 2024

LARM: 面向长期视角具身智能的大型自回归模型

为了解决大型语言模型机器人在特定行动中的限制，本论文提出了一种新的大型自回归模型（LARM），该模型利用文本和多视图图像作为输入并以自回归方式预测后续行动。通过采用自回归节点传输结构的新数据格式和对应的数据集训练 LARM，成功实现了在 Minecraft 中获取更复杂的装备的决策过程。此外，LARM 的速度提高了 6.8 倍。

May, 2024

当线性注意力遇上自回归解码：朝着更有效和高效的线性化大型语言模型

通过结合线性注意力和推测解码，我们对现有线性注意力方法在自回归大语言模型中的功效进行了全面研究，并引入了一种增强的线性化语言模型，实验证明其在训练和生成过程中比先前的线性注意力方法更有效率。

Jun, 2024

深度自回归模型的块并行解码

该论文提出了一种新颖的分块并行解码方案，来提高序列生成的速度，并在机器翻译和图像超分辨率任务上通过实验验证了该方法的有效性。

Nov, 2018

$ extit {latent}$-GLAT：关注潜在变量的并行文本生成技术

本文提出了一种使用离散潜在变量和课程学习技术的平行文本生成方法，不需要使用自回归模型训练即可解决数据集中的多模态问题，并在实验中取得优秀的表现，进一步拓宽了平行解码范式的应用场景。

Apr, 2022

PIXAR: 像素空间中的自回归语言建模

PIXAR 是第一个基于像素的自回归型语言模型，它不依赖预定义的词汇表，可以用于自由形式的生成任务，并与先前的编码器 - 解码器模型在文本表示学习性能方面保持一致。通过简单的对抗预训练，PIXAR 的可读性和性能得到了显着提高，使其在短文本生成任务上与 GPT2 具有相媲美的表现。这为构建可用于自由形式生成任务的开放式词汇语言模型铺平了道路，并对这些具有挑战性的任务中通常的符号输入表示（文本作为标记）的必要性提出了质疑。

Jan, 2024

CLLMs：一致性大型语言模型

通过改进 Jacobi 解码方法，使其能够在单次迭代中准确预测多个令牌，并在任何状态下快速收敛到固定点，从而实现了在生成速度和生成质量上的显著提升。

Feb, 2024

生成遇见验证：智能并行自动校正解码加速大型语言模型推理

本研究旨在加快具有数十亿参数的大型语言模型的推理速度。我们提出了一个名为 SPACE（Smart Parallel Auto-Correct decoding）的创新方法，用于实现 LLMs 的无损加速。通过集成半自回归推理和猜测解码功能，SPACE 使得自回归 LLMs 能够并行生成和验证令牌。此外，一种自动纠正解码算法在单个模型调用中便利地实现了令牌序列的同时生成和验证。通过对多个 LLMs 进行广泛实验，SPACE 在保持输出质量的同时，实现了 2.7 倍至 4.0 倍的推理加速。

Feb, 2024

大型语言模型的无损加速通过自适应 N-gram 并行解码

通过引入自适应 N-gram 并行解码（ANPD），我们提出了一种创新的无损方法，可以在保持性能的同时加速推理。ANPD 采用两阶段方法，通过一种快速草稿阶段和验证阶段，使生成多个标记成为可能，从而提高处理速度并减少推理延迟。ANPD 消除了重新训练或额外 GPU 内存的需求，使其成为一种高效的即插即用增强技术。在实验中，LLaMA 等模型的速度改进达到了 3.67 倍，验证了我们提出的 ANPD 方法的有效性。

Apr, 2024