EcoFormer：线性复杂度的节能注意力

Sep, 2022

EcoFormer：线性复杂度的节能注意力

EcoFormer: Energy-Saving Attention with Linear Complexity

Jing Liu, Zizheng Pan, Haoyu He, Jianfei Cai, Bohan Zhuang

TL;DR提出了一种新的 Transformer 模型的压缩方法 EcoFormer，通过核化哈希将查询和键映射为低维二进制码，并在自监督学习的方式下匹配注意力图中提取的相似关系，可以实现 Attention 机制的线性复杂度并在芯片能耗上节省很多资源。

Abstract

transformer is a transformative framework that models sequential data and has achieved remarkable performance on a wide range of tasks, but with high computational and energy cost. To improve its efficiency, a popular choice is to compress the models via →

transformer binarization self-supervised learning attention mechanism energy efficiency

发现论文，激发创造

cosFormer: 重新思考注意力机制中的 Softmax

本文提出了一种线性可替换 softmax attention 的转换器 ——cosFormer，通过线性操作和余弦基础距离重新加权机制，保证了注意矩阵非负性和分布可以集中，并在语言建模和文本理解任务中取得了很好的效果。

Feb, 2022

ReduceFormer：通过求和进行张量缩减的注意力

Transformers 的计算机视觉任务中，通过使用简化架构和改进的推理性能的 ReduceFormer 模型系列，有效地解决了传统 Transformer 模型中的计算问题，降低了延迟和提高了吞吐量，适用于计算资源和内存带宽有限的边缘设备以及追求高吞吐量的云计算。

Jun, 2024

EulerFormer：基于复杂向量注意力的顺序用户行为建模

该研究提出了一种名为 EulerFormer 的新型变体 Transformer 模型，利用复向量注意力机制动态地整合语义差异和位置差异，并通过相位对比学习任务来改善上下文表示的各向异性。在四个公共数据集上进行的广泛实验证明了该方法的有效性和效率。

Mar, 2024

Flowformer: 线性化变压器与守恒流

本文提出了基于流网络理论的 Flow-Attention 机制以解决 Transformers 中注意力机制的复杂度难题，并在各个领域取得了线性时间性能，包括长序列，时间序列，视觉，自然语言和强化学习等。

Feb, 2022

DualFormer：面向高效视频识别的分层局部全局 Transformer

本文提出了一种新型的 Transformer 架构 DualFormer 用于视频识别，此架构可以有效地处理空间 - 时间关注，能够捕捉短距离和长距离的时空依赖关系，并通过本地 - 全局层次划分策略显著减少注意力计算中的关键值个数，从而提高效率并在五个视频基准测试上验证了 DualFormer 的优越性能。

Dec, 2021

Bitformer: 一种基于位运算的高效 Transformer，用于低成本低精度设备上的大数据分析

Bitformer 模型是 Transformer 范式的一种创新扩展，通过使用位运算代替传统的浮点数矩阵乘法，既能够捕捉复杂的远程信息依赖关系，又能够显著减少注意力机制中的计算复杂性，从而解决边缘计算环境中对数据处理的苛刻要求。

Nov, 2023

扁平 Transformer：使用专注线性注意力的视觉 Transformer

我们提出了一种新颖的线性关注模块，通过引入简单但有效的映射函数和高效的排名恢复模块，提高了自注意力的表达能力，同时保持了低计算复杂度。大量实验证明，我们的线性关注模块适用于各种先进的视觉 Transformer，并在多个基准测试中实现了持续改进的性能。

Aug, 2023

BiFormer: 具有双层路由注意力的视觉 Transformer

介绍了一种新的基于动态稀疏注意力和双层路由的注意力机制，用于实现内容感知的计算分配；其中，提出了一个名为 BiFormer 的新型通用视觉 Transformer，采用 “查询自适应” 的方式进行计算，以提高计算效率，并在图像分类、物体检测和语义分割等计算机视觉任务中取得了有效的结果。

Mar, 2023

稀疏二进制变换器用于多元时间序列建模

通过应用稀疏和二元权重变换器在多变量时间序列问题上，我们表明轻量级模型能够获得与相同结构的稠密浮点变换器相当的准确性。我们的模型在分类、异常检测和单步预测三个时间序列学习任务上取得了良好的结果，并应用了两种修改以减少注意力机制的计算复杂度，从而大大减少变换器中非零操作的数量。我们在参数数量、存储大小和浮点运算量（FLOPs）等多个度量标准上测量了我们的方法的计算节约，并展示了高达 53 倍的存储大小减少和高达 10.5 倍的 FLOPs 减少。

Aug, 2023

Linformer: 线性复杂度的自注意力

本文提出了一种新的自注意力机制 ——Linformer，该机制通过近似自注意力矩阵，将自注意力机制的时间和空间复杂度从 O (n^2) 降低为 O (n)，从而显著提高了 Transformer 模型的内存和时间效率。

Jun, 2020