刺猬与箭猪：具有 Softmax 模拟的表达性线性注意力

ICLRFeb, 2024

刺猬与箭猪：具有 Softmax 模拟的表达性线性注意力

The Hedgehog & the Porcupine: Expressive Linear Attentions with Softmax Mimicry

Michael Zhang, Kush Bhatia, Hermann Kumbong, Christopher Ré

TL;DR线性注意力可以提高 Transformer 的效率，将注意力的二次复杂性降低到与序列长度线性相关。线性注意力在训练线性 Transformer、将任务特定的 Transformer 转换为线性版本以恢复任务性能以及将大型语言模型转换为可在下游任务上进行微调的线性版本等方面具有潜力。然而，线性注意力在质量上经常不如标准的 softmax 注意力。为了弥合这一性能差距，我们发现之前的线性注意力缺少与优秀性能相关的低熵（或 “尖峰”）权重和点积单调性等关键特性。我们进一步观察到保留这些特性并且与 softmax 性能相匹配的非常简单的特征映射，但在线性注意力中计算效率低下。因此，我们提出了 Hedgehog，它是一个可学习的线性注意力，保留 softmax 注意力的尖峰和单调性，同时保持线性复杂性。Hedgehog 使用简单的可训练的多层感知机（MLP）生成模仿 softmax 注意力的注意力权重。实验证明，Hedgehog 在从头训练和微调转换设置中恢复了超过 99% 的标准 Transformer 质量，在 WikiText-103 上通过因果 GPT 模型的困惑度高达 6 点，在微调的双向 BERT 上 GLUE 分数高达 8.7 点。Hedgehog 还实现了预训练转换。将预训练的 GPT-2 转换为线性注意力变体，在 125M 的次二次解码模型上，在 WikiText-103 中实现了 16.7 困惑度的最佳结果。最后，我们将预训练的 Llama-2 7B 转换为可行的线性注意力 Llama。通过低秩适应，Hedgehog-Llama2 7B 相比于基本标准注意力模型，ROUGE-1 分数提高了 28.1 个百分点，而之前的线性注意力则导致了 16.5 个百分点的降低。

Abstract

linear attentions have shown potential for improving transformer efficiency, reducing attention's quadratic complexity to linear in sequence length. This holds exciting promise for (1) training linear Transformer

linear attentions transformer efficiency low-entropy weights dot-product monotonicity hedgehog

发现论文，激发创造

鬣狗等级制度：朝着更大的卷积语言模型

本文介绍了 Hyena，一种亚二次的 attention 替代方法，它通过交错的启发式参数化长卷积和数据控制开关的方式进行构建，能够有效地解决 Transformers 中 quadratic cost 的问题，并且在大规模自然语言处理任务中实现了 Transformer 模型一致的精度，同时减少了 20% 的训练计算资源。

Feb, 2023

硬件高效训练的门控线性注意力变换器

通过引入数据依赖的门控机制，我们开发了一种硬件高效的并行形式，使得门控线性注意力（GLA）Transformers 在适度规模的语言建模中表现竞争力，并在训练速度上与基于 CUDA 优化的 FlashAttention-2 相媲美。

Dec, 2023

Softmax 的优势：揭示其在线性注意力上的性能优势

通过对 softmax 和线性注意机制进行全面的比较分析，我们揭示了 softmax 注意在大多数情况下优于线性注意的潜在原因。

Oct, 2023

Luna: 线性统一嵌套注意力

本论文提出了一种线性统一嵌套注意力机制 Luna，它用两个嵌套的线性注意力函数来逼近 Softmax 注意力机制，从而实现了仅线性时间和空间复杂度。该方法在长序列建模任务、神经机器翻译和大规模预训练掩码语言建模等多个领域性能优异且高效。

Jun, 2021

具有恒定标记成本的 Softmax 注意力

我们对传统的 Transformer 模型中的注意力机制进行了简单修改，通过对指数函数的缩放点积取对数来量化查询 - 键的相似性，将注意力表达为一系列对数求和的指数函数，该方法的优势在于其线性化性质，具有恒定大小的潜在空间，每个标记的顺序应用具有恒定的时间和空间复杂度。我们实现了该修改，验证其在实践中的有效性，并得出结论，即它是传统注意力的一个有前途的替代方法。

Apr, 2024

多头注意力在上下文线性回归中的优势

我们在研究中心比较了 transformer 中 softmax attention 在上下文学习和线性回归任务中的性能，理论分析表明具有较大嵌入维度的多头注意力优于单头注意力，当上下文示例的数量增加时，使用单头 / 多头注意力的预测损失为 O (1/D)，而多头注意力的乘法常数较小。此外，在最简单的数据分布设置之外，我们还考虑了更多的场景，如噪声标签、本地示例、相关特征和先验知识，观察到一般情况下多头注意力优于单头注意力，我们的结果验证了 transformer 架构中多头注意力设计的有效性。

Jan, 2024

无概率笼的标准化注意力

本文介绍了 softmax-attention 在几何上的局限性，并提出采用归一化代替 softmax 实现自我注意力，从而获得超参数和数据推断鲁棒性较强的通用结构。

May, 2020

无 Softmax 的线性变换器

提出 SOftmax-Free Transformer (SOFT)，其采用高斯核函数替代点积相似度，从而能够通过低秩矩阵分解逼近完整的自注意力矩阵，该模型能够明显提高现有 ViT 变体的计算效率，同时具有线性复杂度，且能够容纳更长的令牌序列，优化了准确率和复杂度之间的权衡。

Jul, 2022

抑制因子：ReLU 和基于加法的注意力用于高效 Transformer

通过替代点积和基于 Softmax 的注意力机制，将其替换为仅包含加法和 ReLU 激活的替代机制，以提高量化 Transformer 的计算效率，并支持在资源受限的硬件或同态加密等替代算术系统上运行更大规模的量化 Transformer 模型。

Oct, 2023

SOFT: 线性复杂度的无 Softmax Transformer

提出了一种 softmax-free transformer 或 SOFT 方法，通过使用高斯内核函数替换点积相似性，而不需要标准化以消除 softmax，在计算复杂度上具有线性复杂度，并显著提高了已有 ViT 变种的计算效率。

Oct, 2021