硬件高效训练的门控线性注意力变换器

Dec, 2023

硬件高效训练的门控线性注意力变换器

Gated Linear Attention Transformers with Hardware-Efficient Training

Songlin Yang, Bailin Wang, Yikang Shen, Rameswar Panda, Yoon Kim

TL;DR通过引入数据依赖的门控机制，我们开发了一种硬件高效的并行形式，使得门控线性注意力（GLA）Transformers 在适度规模的语言建模中表现竞争力，并在训练速度上与基于 CUDA 优化的 FlashAttention-2 相媲美。

Abstract

transformers with linear attention allow for efficient parallel training but can simultaneously be formulated as an RNN with 2D (matrix-valued) hidden states, thus enjoying linear (with respect to output length)

transformers linear attention gating mechanism language modeling hardware-efficient

发现论文，激发创造

线性时间中的 Transformer 质量

本文提出使用门控注意力单元和线性近似方法改良 Transformers 模型的方法，新模型命名为 FLASH。该模型在短序列和长序列上都达到了改良 Transformers 的分词结果，同时在 Wiki-40B 和 PG-19 的自回归语言模型上训练速度最多提升了 4.9 倍，在掩蔽语言模型上提升了 4.8 倍。

Feb, 2022

门控循环神经网络发现注意力

近期的研究发现具备线性循环层和前馈路径的带有乘性门控模式的循环神经网络（RNNs）能够实现线性自注意力，这是 Transformer 的主要组成部分之一。通过对一组训练过的 RNNs 进行逆向工程，我们发现在实践中梯度下降法会找到我们构建的机制。这项研究结果强调了神经网络中乘性交互的重要性，并暗示某些 RNNs 可能在内部意外地实现了注意力机制。

Sep, 2023

精简注意力：面向 Transformer 解码阶段的硬件感知可扩展注意力机制

LeanAttention 是一种可扩展的自注意力计算技术，通过重新设计解码阶段的执行流程，将自注意力机制的实现扩展到具有挑战性的长上下文长度情况，以并行计算的方式提供 2.6 倍的平均注意力执行加速和最多 8.33 倍的速度提升。

May, 2024

使用 Delta 规则并行化线性变换器来处理序列长度

用 Delta 规则训练线性变压器，并结合滑动窗口和全局注意力层构建的混合模型，在语言建模和下游任务中表现出色。

Jun, 2024

注意力作为一个 RNN

Transformers 在序列建模中取得了重大突破，但计算开销较大，本文提出了一种新的高效计算 attention 的方法，引入了名为 Aaren 的 attention-based 模块，使其能够像 Transformers 一样并行训练，同时像传统的 RNN 一样高效地更新新的 tokens，从而在多个序列问题上取得了可比较的性能，同时具有更高的时间和内存效率。

May, 2024

线性时间变压器的潜在注意力

在传统的 transformer 模型中，标准的 attention 机制的时间复杂度随着序列的长度呈二次方增长。本研究提出了一种基于潜在向量定义注意力的方法，将时间复杂度降低为随序列长度线性增长。我们的 “Latte Transformer” 模型可以在双向和单向任务中使用，通过因果版本可以实现在推理过程中进行语言生成任务的记忆和时间高效的循环实现。与标准 transformer 相比，标准的下一个记号预测的时间复杂度与序列长度成线性关系，而 Latte Transformer 只需常数时间计算下一个记号。我们方法的实证表现与标准 attention 相当，但允许在标准 attention 不可行的背景窗口范围内进行扩展。

Feb, 2024

TransNormer 模型参数适配至 1750 亿

我们提出了 TransNormerLLM，这是第一个基于线性注意力的大型语言模型（LLM），在准确性和效率方面均超过了传统的基于 softmax 注意力的模型。

Jul, 2023

FlashAttention-2：更快的注意力计算，更好的并行和工作分割

使用 FlashAttention 和 FlashAttention-2 算法来提高模型的效率

Jul, 2023

HGRN2：具有状态扩展的门控线性循环神经网络

HGRN2 通过引入基于外积的状态扩展机制，在不引入额外参数的情况下，显著增加了循环状态大小，提高了语言建模、图像分类和长距离竞技场方面的性能。

Apr, 2024

ViG: 使用门控线性注意力进行线性复杂度的视觉序列学习

在计算机视觉任务中，线性复杂度序列建模网络达到了与 Vision Transformers 相似的建模能力，同时使用更少的 FLOPs 和内存。然而，它们在实际运行时速度方面的优势并不显著。为了解决这个问题，我们引入了适用于视觉的门控线性注意力（GLA），利用它的硬件感知和高效性。我们提出了方向性门控，通过双向建模来捕捉一维全局上下文，并通过二维门控局部注入来自适应地将二维局部细节注入一维全局上下文。我们的硬件感知实现将正向扫描和反向扫描合并为单个核心，增强了并行性，减少了内存成本和延迟。所提出的模型 ViG 在 ImageNet 和下游任务中在准确性、参数和 FLOPs 上取得了有利的权衡，优于流行的 Transformer 和基于 CNN 的模型。值得注意的是，ViG-S 仅使用参数的 27% 和 FLOPs 的 20%，在 224x224 大小的图像上运行速度比 DeiT-B 快 2 倍。在 1024x1024 分辨率下，ViG-T 使用的 FLOPs 比 DeiT-T 少了 5.2 倍，节省了 90% 的 GPU 内存，运行速度快了 4.8 倍，并且相比 DeiT-T 的 top-1 准确率高出 20.7%。这些结果使 ViG 成为一种高效且可扩展的视觉表示学习解决方案。代码可在 https://github.com/hustvl/ViG 找到。

May, 2024