EcoFormer:线性复杂度的节能注意力
本文提出了一种线性可替换 softmax attention 的转换器 ——cosFormer,通过线性操作和余弦基础距离重新加权机制,保证了注意矩阵非负性和分布可以集中,并在语言建模和文本理解任务中取得了很好的效果。
Feb, 2022
Transformers 的计算机视觉任务中,通过使用简化架构和改进的推理性能的 ReduceFormer 模型系列,有效地解决了传统 Transformer 模型中的计算问题,降低了延迟和提高了吞吐量,适用于计算资源和内存带宽有限的边缘设备以及追求高吞吐量的云计算。
Jun, 2024
该研究提出了一种名为 EulerFormer 的新型变体 Transformer 模型,利用复向量注意力机制动态地整合语义差异和位置差异,并通过相位对比学习任务来改善上下文表示的各向异性。在四个公共数据集上进行的广泛实验证明了该方法的有效性和效率。
Mar, 2024
本文提出了基于流网络理论的 Flow-Attention 机制以解决 Transformers 中注意力机制的复杂度难题,并在各个领域取得了线性时间性能,包括长序列,时间序列,视觉,自然语言和强化学习等。
Feb, 2022
本文提出了一种新型的 Transformer 架构 DualFormer 用于视频识别,此架构可以有效地处理空间 - 时间关注,能够捕捉短距离和长距离的时空依赖关系,并通过本地 - 全局层次划分策略显著减少注意力计算中的关键值个数,从而提高效率并在五个视频基准测试上验证了 DualFormer 的优越性能。
Dec, 2021
Bitformer 模型是 Transformer 范式的一种创新扩展,通过使用位运算代替传统的浮点数矩阵乘法,既能够捕捉复杂的远程信息依赖关系,又能够显著减少注意力机制中的计算复杂性,从而解决边缘计算环境中对数据处理的苛刻要求。
Nov, 2023
我们提出了一种新颖的线性关注模块,通过引入简单但有效的映射函数和高效的排名恢复模块,提高了自注意力的表达能力,同时保持了低计算复杂度。大量实验证明,我们的线性关注模块适用于各种先进的视觉 Transformer,并在多个基准测试中实现了持续改进的性能。
Aug, 2023
介绍了一种新的基于动态稀疏注意力和双层路由的注意力机制,用于实现内容感知的计算分配;其中,提出了一个名为 BiFormer 的新型通用视觉 Transformer,采用 “查询自适应” 的方式进行计算,以提高计算效率,并在图像分类、物体检测和语义分割等计算机视觉任务中取得了有效的结果。
Mar, 2023
通过应用稀疏和二元权重变换器在多变量时间序列问题上,我们表明轻量级模型能够获得与相同结构的稠密浮点变换器相当的准确性。我们的模型在分类、异常检测和单步预测三个时间序列学习任务上取得了良好的结果,并应用了两种修改以减少注意力机制的计算复杂度,从而大大减少变换器中非零操作的数量。我们在参数数量、存储大小和浮点运算量(FLOPs)等多个度量标准上测量了我们的方法的计算节约,并展示了高达 53 倍的存储大小减少和高达 10.5 倍的 FLOPs 减少。
Aug, 2023
本文提出了一种新的自注意力机制 ——Linformer,该机制通过近似自注意力矩阵,将自注意力机制的时间和空间复杂度从 O (n^2) 降低为 O (n),从而显著提高了 Transformer 模型的内存和时间效率。
Jun, 2020