APAR: LLMs 可以进行自动并行自回归解码
AUTOPARLLM 是一个用于自动发现并生成顺序程序的并行版本的框架,通过使用异构图神经网络(GNN)进行并行性发现和并行模式检测,并结合 LLM 代码生成器,能够有效改善并行代码生成任务中的多个代码生成指标,并且通过引入 OMPScore 衡量方法,提供了一种优于现有指标的评估生成代码质量的方法。
Oct, 2023
我们提出了一种混合方法,结合不同规模的语言模型以提高自回归解码的效率,同时保持高性能。该方法利用一个预先训练的冻结语言模型来编码所有提示标记,然后使用生成的表示来引导一个较小的语言模型来更高效地生成响应。与 LLM 相比,我们的方法在翻译和摘要任务中实现了高达 4 倍的速度提升,但只有 1-2% 的性能损失。
Feb, 2024
为了解决大型语言模型机器人在特定行动中的限制,本论文提出了一种新的大型自回归模型(LARM),该模型利用文本和多视图图像作为输入并以自回归方式预测后续行动。通过采用自回归节点传输结构的新数据格式和对应的数据集训练 LARM,成功实现了在 Minecraft 中获取更复杂的装备的决策过程。此外,LARM 的速度提高了 6.8 倍。
May, 2024
通过结合线性注意力和推测解码,我们对现有线性注意力方法在自回归大语言模型中的功效进行了全面研究,并引入了一种增强的线性化语言模型,实验证明其在训练和生成过程中比先前的线性注意力方法更有效率。
Jun, 2024
本文提出了一种使用离散潜在变量和课程学习技术的平行文本生成方法,不需要使用自回归模型训练即可解决数据集中的多模态问题,并在实验中取得优秀的表现,进一步拓宽了平行解码范式的应用场景。
Apr, 2022
PIXAR 是第一个基于像素的自回归型语言模型,它不依赖预定义的词汇表,可以用于自由形式的生成任务,并与先前的编码器 - 解码器模型在文本表示学习性能方面保持一致。通过简单的对抗预训练,PIXAR 的可读性和性能得到了显着提高,使其在短文本生成任务上与 GPT2 具有相媲美的表现。这为构建可用于自由形式生成任务的开放式词汇语言模型铺平了道路,并对这些具有挑战性的任务中通常的符号输入表示(文本作为标记)的必要性提出了质疑。
Jan, 2024
本研究旨在加快具有数十亿参数的大型语言模型的推理速度。我们提出了一个名为 SPACE(Smart Parallel Auto-Correct decoding)的创新方法,用于实现 LLMs 的无损加速。通过集成半自回归推理和猜测解码功能,SPACE 使得自回归 LLMs 能够并行生成和验证令牌。此外,一种自动纠正解码算法在单个模型调用中便利地实现了令牌序列的同时生成和验证。通过对多个 LLMs 进行广泛实验,SPACE 在保持输出质量的同时,实现了 2.7 倍至 4.0 倍的推理加速。
Feb, 2024
通过引入自适应 N-gram 并行解码(ANPD),我们提出了一种创新的无损方法,可以在保持性能的同时加速推理。ANPD 采用两阶段方法,通过一种快速草稿阶段和验证阶段,使生成多个标记成为可能,从而提高处理速度并减少推理延迟。ANPD 消除了重新训练或额外 GPU 内存的需求,使其成为一种高效的即插即用增强技术。在实验中,LLaMA 等模型的速度改进达到了 3.67 倍,验证了我们提出的 ANPD 方法的有效性。
Apr, 2024