闪电关注 - 2：在大型语言模型中处理无限序列长度的免费午餐

Jan, 2024

闪电关注 - 2：在大型语言模型中处理无限序列长度的免费午餐

Lightning Attention-2: A Free Lunch for Handling Unlimited Sequence Lengths in Large Language Models

Zhen Qin, Weigao Sun, Dong Li, Xuyang Shen, Weixuan Sun...

TL;DR该论文介绍了 Lightning Attention-2，首个能实现线性注意力的理论计算优势的线性注意力实现方法，通过利用平铺技术和 GPU 硬件，充分发挥其在不同模型尺寸和序列长度上的训练和推理速度的一致性，并且比其他注意力机制更快。

Abstract

linear attention is an efficient attention mechanism that has recently emerged as a promising alternative to conventional softmax attention. With its ability to process tokens in linear →

linear attention softmax attention computational complexities tiling technique lightning attention-2

发现论文，激发创造

不同长度，匀速进行：高效语言建模与闪电注意力

我们提出了闪电注意力（Lightning Attention），这是第一个在固定的内存消耗下保持不同序列长度的训练速度恒定的线性注意力实现。

May, 2024

线性时间变压器的潜在注意力

在传统的 transformer 模型中，标准的 attention 机制的时间复杂度随着序列的长度呈二次方增长。本研究提出了一种基于潜在向量定义注意力的方法，将时间复杂度降低为随序列长度线性增长。我们的 “Latte Transformer” 模型可以在双向和单向任务中使用，通过因果版本可以实现在推理过程中进行语言生成任务的记忆和时间高效的循环实现。与标准 transformer 相比，标准的下一个记号预测的时间复杂度与序列长度成线性关系，而 Latte Transformer 只需常数时间计算下一个记号。我们方法的实证表现与标准 attention 相当，但允许在标准 attention 不可行的背景窗口范围内进行扩展。

Feb, 2024

Luna: 线性统一嵌套注意力

本论文提出了一种线性统一嵌套注意力机制 Luna，它用两个嵌套的线性注意力函数来逼近 Softmax 注意力机制，从而实现了仅线性时间和空间复杂度。该方法在长序列建模任务、神经机器翻译和大规模预训练掩码语言建模等多个领域性能优异且高效。

Jun, 2021

精简注意力：面向 Transformer 解码阶段的硬件感知可扩展注意力机制

LeanAttention 是一种可扩展的自注意力计算技术，通过重新设计解码阶段的执行流程，将自注意力机制的实现扩展到具有挑战性的长上下文长度情况，以并行计算的方式提供 2.6 倍的平均注意力执行加速和最多 8.33 倍的速度提升。

May, 2024

BurstAttention: 极长序列的高效分布式注意力框架

我们提出了一种名为 “BurstAttention” 的分布式注意力框架，通过在全局集群和本地设备级别上优化内存访问和通信操作，相比于竞争的基准线，在处理长序列时减少 40% 的通信开销，训练 32K 序列长度时实现 2 倍加速。

Mar, 2024

硬件高效训练的门控线性注意力变换器

通过引入数据依赖的门控机制，我们开发了一种硬件高效的并行形式，使得门控线性注意力（GLA）Transformers 在适度规模的语言建模中表现竞争力，并在训练速度上与基于 CUDA 优化的 FlashAttention-2 相媲美。

Dec, 2023

LongNet: 将 Transformer 扩展到 10 亿个标记

LongNet 是 Transformer 的一种变体，引入了扩张注意力（dilated attention）来扩展序列长度，使其能够处理超过 10 亿个标记的序列，同时不会牺牲短序列的性能表现。

Jul, 2023

近无限背景下的分块 Transformer 环形注意力

传统的 Transformer 架构由于内存需求限制了其处理长序列的能力，而我们提出的 Ring Attention 方法通过分块计算自注意力和重叠通信的方式，提高了内存利用效率，允许处理更长的输入序列，从而消除了设备内存的限制，同时在语言建模任务上取得了显著的性能提升。

Oct, 2023

短 - 长卷积有助于高效硬件线性注意力集中于长序列

通过采用分层和分块思想，我们提出了 CHELA（硬件高效的短长卷积与线性注意力）来解决线性注意力在因果设置下仅保持在理论层面的问题，同时通过替换状态空间模型（SSMs）为短长卷积，实现了稳定的 SSMs，保持真正的线性复杂度。通过对 Long Range Arena 基准和语言建模任务的综合实验，我们证明了所提方法的有效性。

Jun, 2024

线性时间中的 Transformer 质量

本文提出使用门控注意力单元和线性近似方法改良 Transformers 模型的方法，新模型命名为 FLASH。该模型在短序列和长序列上都达到了改良 Transformers 的分词结果，同时在 Wiki-40B 和 PG-19 的自回归语言模型上训练速度最多提升了 4.9 倍，在掩蔽语言模型上提升了 4.8 倍。

Feb, 2022