Hydra Attention: 多头注意力的高效实现
Vision Transformers (ViTs) have revolutionized computer vision, but their computational complexity and attention saturation issues limit their practical application. The Less-Attention Vision Transformer (LaViT) proposes a novel approach that reduces the number of attention operations and leverages previously calculated attention scores, resulting in superior efficiency and performance across vision tasks.
Jun, 2024
我们引入了三种新的注意力机制,比标准的多头注意力在效率和学习能力方面表现更好,从而提高了 Transformer 模型的性能和广泛部署能力。我们的第一个贡献是优化的注意力,它在头部数量、参数数量和矩阵乘法数量上与标准注意力相近,但参数数量少了 3/4,每个头部少了一次矩阵乘法。接下来,我们介绍了高效的注意力,它在参数数量上只有标准注意力的一半,每个头部少了两次矩阵乘法,并且速度是标准注意力的两倍。最后,我们介绍了超级注意力,在视觉和自然语言处理任务中显著超过标准注意力,同时具有更少的参数和矩阵乘法。除了提供严谨的数学比较,我们还在 MNIST、CIFAR100、IMDB 电影评论和 Amazon 评论数据集上评估了所提出的注意力机制。
Mar, 2024
该研究通过引入多轴关注模型和卷积等新元素,提出了一种高效且可扩展的注意力模型,即 MaxViT。利用 MaxViT 作为骨干网络,在图像分类和物体检测等任务上都取得了领先的性能。同时,该模型还证明了其在图像生成方面的潜在优势。
Apr, 2022
本研究表明,即使使用多重头部训练模型,实质上也可以在测试时间删除大量的注意力头而不会对性能产生显著影响,可以通过剪枝算法进一步降低模型的复杂度、提高速度和内存效率,并提供关于哪些模型部分更依赖于多头注意力的初步证据,并发现训练动态在多头注意力带来的收益中扮演着重要角色。
May, 2019
本文提出一种名为 SSA 的新型自注意力策略,能够使 Vision Transformer 模型在单个自注意力层上实现对多种尺度特征的建模,并得到了广泛验证和超越同类模型的结果。
Nov, 2021
通过使用基于多个轴的新型 Hyena 层,我们提出了一种不依赖于自注意力机制的高效视觉 Transformer,并且实验证明该方法在多个数据集上提升了各种 Vision Transformer 架构的性能。
Sep, 2023
为了更好的利用 Transformer 的潜力以进行图片重构,在融合通道注意力和基于窗口的自注意机制的优势的基础上提出了一种新型的 Hybrid Attention Transformer 模型。此外,还引入了重叠交叉注意力模块并采用相同任务的预训练策略,拓展模型的能力。实验证明这个模型在图片超分辨率方面的表现优于现有方法超过 1dB。
May, 2022
本文发现 Vision transformers 模型存在 attention collapse issue 现象,即 transformer 模型越深层次的注意力权重变得越相似,严重影响模型性能,提出了一种名为 Re-attention 的有效方法来解决该问题,使得 32 层的 Vision transformers 模型在 ImageNet 数据集的 Top-1 分类准确率上提高了 1.6%。
Mar, 2021
该论文提出了一种协作式多头注意力层,该方法通过共享 key/query 投影来降低注意力层中参数的数量,可以用于任何变压器体系结构,并对语言理解、机器翻译和计算机视觉方面进行了验证和实验,并可将预训练的多头注意力层重新参数化为协同注意力层,使 key 和 query 投影的大小减小了 4 倍,而准确性和速度保持不变。
Jun, 2020