当线性注意力遇上自回归解码：朝着更有效和高效的线性化大型语言模型

ICMLJun, 2024

当线性注意力遇上自回归解码：朝着更有效和高效的线性化大型语言模型

When Linear Attention Meets Autoregressive Decoding: Towards More Effective and Efficient Linearized Large Language Models

PDF

Haoran You, Yichao Fu, Zheng Wang, Amir Yazdanbakhsh, Yingyan

TL;DR通过结合线性注意力和推测解码，我们对现有线性注意力方法在自回归大语言模型中的功效进行了全面研究，并引入了一种增强的线性化语言模型，实验证明其在训练和生成过程中比先前的线性注意力方法更有效率。

Abstract

autoregressive large language models (llms) have achieved impressive performance in language tasks but face two significant bottlenecks: (1) quadratic complexity in the →

autoregressive large language models attention module linear attention speculative decoding llms

发现论文，激发创造

通过模块化线性化注意力提高自回归 NLP 任务的性能

本文提出基于模块化线性化注意力（MLA）的自然语言处理技术，通过结合多种高效的注意力机制，并验证其在自回归任务上显著提升了推理质量和效率。

Apr, 2023

高效经济的大型语言模型推理与注意力卸载

通过引入关注点卸载的概念，将昂贵的计算优化加速器与便宜的内存优化设备相结合，以提高大型语言模型的效率和成本效益。我们开发了 Lamina 推理系统，实验证明，相较于同质解决方案，Lamina 可以提供每美元 1.48 倍至 12.1 倍的更高预计吞吐量。

May, 2024

利用前瞻解码打破 LLM 推断的顺序依赖性

使用准确并行的预读解码算法加速大型语言模型的自回归解码，从而减少总解码步骤，提高解码速度并充分发挥现代加速器的并行处理能力。

Feb, 2024

自动生成巨大，快速生成：快速自回归解码的 LLM-to-SLM

我们提出了一种混合方法，结合不同规模的语言模型以提高自回归解码的效率，同时保持高性能。该方法利用一个预先训练的冻结语言模型来编码所有提示标记，然后使用生成的表示来引导一个较小的语言模型来更高效地生成响应。与 LLM 相比，我们的方法在翻译和摘要任务中实现了高达 4 倍的速度提升，但只有 1-2% 的性能损失。

Feb, 2024

大语言模型的高效推论综述

大规模语言模型的有效推理需要克服模型规模大、注意力操作复杂度高、自回归解码等问题，本文对提高大规模语言模型推理效率的现有技术文献进行了综述，介绍了数据层、模型层和系统层优化的方法，并通过实验进行了定量分析，最后总结了相关知识，并探讨了未来研究方向。

Apr, 2024

大型语言模型中的加速生成技术综述

这篇论文综述了大型语言模型中加速文本生成的关键技术，包括推测解码、提前退出机制和非自回归方法，并对它们的原理、优势、限制和最新进展进行了讨论，旨在为自然语言处理领域的未来研究方向提供指导。

May, 2024

APAR: LLMs 可以进行自动并行自回归解码

通过并行自回归生成的方法以及与推理解码相结合，可以显著提高大型语言模型的生成速度和性能。

Jan, 2024

注意力多层感知器用于非自回归生成

提出了一种具有线性时间和空间复杂度的新型多层感知机（AMLP）来解决非自回归生成模型中的二次复杂度问题，并通过在文本转语音合成和机器翻译任务中的实验证明，AMLP 与 NAR 模型的结合在效率上明显优于竞争模型。

Oct, 2023

基于锚定的大型语言模型

本研究引入了基于锚点的 LLM (AnLLM) 模型，该模型利用了一种创新的基于锚点的自注意力网络 (AnSAN) 和一种基于锚点的推理策略，将序列信息压缩到锚点令牌中，从而减少键 / 值缓存并提高推理效率。实验证明，AnLLM 在保持可比精度的同时缩减了 99% 的键 / 值缓存，并实现了高达 3.5 倍的更快推理速度。尽管在精度上有轻微折衷，AnLLM 在计算效率和资源利用方面具有显著改善，展示了锚点式注意力方法在实际应用中对于实时推理的潜力。

Feb, 2024

CLLMs：一致性大型语言模型

通过改进 Jacobi 解码方法，使其能够在单次迭代中准确预测多个令牌，并在任何状态下快速收敛到固定点，从而实现了在生成速度和生成质量上的显著提升。

Feb, 2024