cosFormer: 重新思考注意力机制中的 Softmax

ICLRFeb, 2022

cosFormer: 重新思考注意力机制中的 Softmax

cosFormer: Rethinking Softmax in Attention

Zhen Qin, Weixuan Sun, Hui Deng, Dongxu Li, Yunshen Wei...

TL;DR本文提出了一种线性可替换 softmax attention 的转换器 ——cosFormer，通过线性操作和余弦基础距离重新加权机制，保证了注意矩阵非负性和分布可以集中，并在语言建模和文本理解任务中取得了很好的效果。

Abstract

transformer has shown great successes in natural language processing, computer vision, and audio processing. As one of its core components, the softmax attention helps to capture →

transformer softmax attention cosformer linear transformer long-range dependencies

发现论文，激发创造

高效远程 Transformer：你需要参与更多，但不一定是每一层

提出了一种名为 MASFormer 的变种 Transformer 模型，它通过混合的注意力机制在处理长序列数据时既能捕捉到长距离依赖关系，又能在其余层使用稀疏注意力提高计算效率。实验结果表明，该模型在自然语言建模和生成任务中能够达到与全注意力的 Transformer 模型相媲美的性能，同时显著降低计算成本（多达 75%），并对长序列数据的持续训练和序列长度对下游生成任务的影响进行了研究。

Oct, 2023

EcoFormer：线性复杂度的节能注意力

提出了一种新的 Transformer 模型的压缩方法 EcoFormer，通过核化哈希将查询和键映射为低维二进制码，并在自监督学习的方式下匹配注意力图中提取的相似关系，可以实现 Attention 机制的线性复杂度并在芯片能耗上节省很多资源。

Sep, 2022

ReduceFormer：通过求和进行张量缩减的注意力

Transformers 的计算机视觉任务中，通过使用简化架构和改进的推理性能的 ReduceFormer 模型系列，有效地解决了传统 Transformer 模型中的计算问题，降低了延迟和提高了吞吐量，适用于计算资源和内存带宽有限的边缘设备以及追求高吞吐量的云计算。

Jun, 2024

SOFT: 线性复杂度的无 Softmax Transformer

提出了一种 softmax-free transformer 或 SOFT 方法，通过使用高斯内核函数替换点积相似性，而不需要标准化以消除 softmax，在计算复杂度上具有线性复杂度，并显著提高了已有 ViT 变种的计算效率。

Oct, 2021

Softmax 的优势：揭示其在线性注意力上的性能优势

通过对 softmax 和线性注意机制进行全面的比较分析，我们揭示了 softmax 注意在大多数情况下优于线性注意的潜在原因。

Oct, 2023

无 Softmax 的线性变换器

提出 SOftmax-Free Transformer (SOFT)，其采用高斯核函数替代点积相似度，从而能够通过低秩矩阵分解逼近完整的自注意力矩阵，该模型能够明显提高现有 ViT 变体的计算效率，同时具有线性复杂度，且能够容纳更长的令牌序列，优化了准确率和复杂度之间的权衡。

Jul, 2022

Cluster-Former: 基于聚类的稀疏变形器，用于长距离依赖编码

本研究提出了一种基于聚类的稀疏 Transformer 模型，它由滑动窗口层和 Cluster-Former 层组成，能够跨越窗口编码本地序列信息和全局上下文信息，这种新的设计在回答具有长程依赖性的问题时尤其有益，实验结果表明其在多项 QA 基准测试中实现了最先进的性能。

Sep, 2020

PolySketchFormer：基于草图的快速 Transformer 用于多项式核函数

该研究论文通过使用多项式函数和多项式取样法，替代基于 softmax 的注意力机制，以及提出基于区块的算法，实现了一个能够在线性时间内计算多项式注意力机制的实用线性变换器架构，从而显著提高了大规模上下文下的注意力机制的速度。

Oct, 2023

具有恒定标记成本的 Softmax 注意力

我们对传统的 Transformer 模型中的注意力机制进行了简单修改，通过对指数函数的缩放点积取对数来量化查询 - 键的相似性，将注意力表达为一系列对数求和的指数函数，该方法的优势在于其线性化性质，具有恒定大小的潜在空间，每个标记的顺序应用具有恒定的时间和空间复杂度。我们实现了该修改，验证其在实践中的有效性，并得出结论，即它是传统注意力的一个有前途的替代方法。

Apr, 2024

扁平 Transformer：使用专注线性注意力的视觉 Transformer

我们提出了一种新颖的线性关注模块，通过引入简单但有效的映射函数和高效的排名恢复模块，提高了自注意力的表达能力，同时保持了低计算复杂度。大量实验证明，我们的线性关注模块适用于各种先进的视觉 Transformer，并在多个基准测试中实现了持续改进的性能。

Aug, 2023