高效注意力:线性复杂度的注意力
基于注意力机制的神经结构如视觉变换器正在革新图像识别,但该研究发现当其面临对抗补丁攻击时,全局性推理会成为一个重大漏洞,并提供了新的对抗目标,针对该漏洞制造对抗补丁,并在多个模型上验证了其有效性。
Mar, 2022
提出了一种与 Transformer 架构的自注意力机制兼容的替代性兼容函数,并在类似 BERT 模型的预训练中实现了对称的注意力机制,在 GLUE 基准测试中得分 79.36,减少了可训练参数数量的 6%,并将收敛前所需的训练步骤减少了一半。
Jun, 2024
通过替代点积和基于 Softmax 的注意力机制,将其替换为仅包含加法和 ReLU 激活的替代机制,以提高量化 Transformer 的计算效率,并支持在资源受限的硬件或同态加密等替代算术系统上运行更大规模的量化 Transformer 模型。
Oct, 2023
本文提出了一种基于 Transformer 的 3D 视觉应用中的线性注意力机制,通过全局和局部信息聚合进行关键点匹配,同时提出了联合学习来简化和加速特征匹配,最终在几个基准测试中取得了具有竞争力的性能。
Apr, 2022
本文提出了一种新的注意力机制,并通过将 Dot-Product Attention 中的矩阵乘法转换成数组乘法来实现元素级别的注意力,从而在保持实验精度的同时减少了网络的参数量。在 Fashion MNIST 和 CIFAR10 数据集上的分类实验中,该方法的结果表明,相对于 VGG 类似结构,神经网络降低了 97% 的参数量,但在 Fashion MNIST 数据集上的分类准确率达到了 92%,而在 CIFAR10 数据集上的分类准确率仍相当于 VGG-like 架构的 60%。
Feb, 2023
我们提出了一种新颖的线性关注模块,通过引入简单但有效的映射函数和高效的排名恢复模块,提高了自注意力的表达能力,同时保持了低计算复杂度。大量实验证明,我们的线性关注模块适用于各种先进的视觉 Transformer,并在多个基准测试中实现了持续改进的性能。
Aug, 2023
我们引入了三种新的注意力机制,比标准的多头注意力在效率和学习能力方面表现更好,从而提高了 Transformer 模型的性能和广泛部署能力。我们的第一个贡献是优化的注意力,它在头部数量、参数数量和矩阵乘法数量上与标准注意力相近,但参数数量少了 3/4,每个头部少了一次矩阵乘法。接下来,我们介绍了高效的注意力,它在参数数量上只有标准注意力的一半,每个头部少了两次矩阵乘法,并且速度是标准注意力的两倍。最后,我们介绍了超级注意力,在视觉和自然语言处理任务中显著超过标准注意力,同时具有更少的参数和矩阵乘法。除了提供严谨的数学比较,我们还在 MNIST、CIFAR100、IMDB 电影评论和 Amazon 评论数据集上评估了所提出的注意力机制。
Mar, 2024
通过除以键值长度之和而非平方根,我们提出了一种替代方法来缩放点积,以避免在应用 softmax 时导致梯度消失的区域。我们使用模拟的键和查询显示,这种方法在许多情况下更有效。
Nov, 2023
我们提出了 Mansformer,它是一种结合了多种自注意力、门控和多层感知的混合加权 Transformer,通过对张量形状和维度进行精心调整,将典型的二次复杂度自注意力分解成四次线性复杂度操作,并利用类似 Squeeze-and-Excitation Networks 的架构实现了这些不同类型自注意力的自适应融合,通过提出的门控 - dconv MLP 将两阶段的 Transformer 设计合并为一阶段,主要用于图像去模糊,经过广泛的定量和定性评估,表明该方法在远远超过简单去模糊的最先进方法方面表现出色,源代码和训练模型将提供给公众。
Apr, 2024
应用 Mahalanobis 距离计算注意力权重,将模型的特征空间在高上下文相关性方向进行拉伸,从而达到减少特征塌缩和提升模型鲁棒性的效果,验证了在多个实际任务中 Elliptical Attention 相对于基线 dot-product attention 和最先进的方法的优越性。
Jun, 2024