格雷码注意力头是强大而高效的视觉学习者

Oct, 2023

格雷码注意力头是强大而高效的视觉学习者

Gramian Attention Heads are Strong yet Efficient Vision Learners

Jongbin Ryu, Dongyoon Han, Jongwoo Lim

TL;DR通过引入多个头分类器，采用基于注意力的聚合和关注类令牌的格拉姆矩阵，提升架构的表达性能，从而在各种任务中实现无与伦比的性能。

Abstract

We introduce a novel architecture design that enhances expressiveness by incorporating multiple head classifiers (\ie, classification head

architecture design expressiveness head classifiers attention-based aggregation discriminative representations

发现论文，激发创造

Hydra Attention: 多头注意力的高效实现

介绍了一种针对大型图像的高效注意力操作 ——Hydra Attention，使用的多头注意力与特征数一样多，与元素数量和特征数量成线性关系，比现有的 self-attention 更快，同时在 ImageNet 数据集上保持了高准确性。

Sep, 2022

细粒度实体类型分类的神经架构

本文采用几种神经网络结构进行细粒度实体类型分类研究，并考虑了对最近提出的注意力神经结构的扩展，得出了三个关键贡献：结合学习和手工特征，同时观察它们互补作用；定量分析表明该注意力机制能够学习关注句法头和包含提及的短语，在我们的任务中，这些都是强大的手工特征；通过分层标签编码方法实现参数共享，在低维投影中显示出每种类型层次的明显聚类；虽然使用相同的评估数据集，但文献经常比较使用不同数据训练的模型，我们发现训练数据的选择对性能有显着影响，甚至会降低先前提出的方法的松散微 F1 得分高达 9.85％，但我们的最佳模型在广为人知的 FIGER（GOLD）数据集上实现了最新成果，松弛的微 F1 得分为 75.36％。

Jun, 2016

层次化的注意力混合神经网络用于文档分类

本文提出了一种基于卷积神经网络、门控递归单元和注意机制的组合方法，用于文档分类任务，并通过层次结构表示提取了更有意义、更可泛化和抽象的特征，改善了当前基于注意力机制的文档分类方法的结果。

Jan, 2019

图注意力架构的鸟瞰教程

本文系统而集中地介绍了基于注意力机制的图神经网络在自然语言处理、计算机视觉和推荐系统等领域的应用，以及它们的优缺点。

Jun, 2022

多头注意力：合作而非串联

该论文提出了一种协作式多头注意力层，该方法通过共享 key/query 投影来降低注意力层中参数的数量，可以用于任何变压器体系结构，并对语言理解、机器翻译和计算机视觉方面进行了验证和实验，并可将预训练的多头注意力层重新参数化为协同注意力层，使 key 和 query 投影的大小减小了 4 倍，而准确性和速度保持不变。

Jun, 2020

GvT: 一种利用稀疏性进行训练的基于图的视觉 Transformer 模型，使用自由发挥，从头开始在小数据集上训练

使用基于图卷积投影和图池化的图神经网络（GvT），并通过基于双线性池化特征和注意张量的稀疏选择的讲话头技术解决注意头降维问题，以及应用图池化来有效降低标记数量和聚合语义信息，实验结果表明 GvT 在小数据集上超越了卷积神经网络和预训练的视觉 Transformer 模型。

Apr, 2024

Vision GNN: 一张图值得千万个节点

本文提出了将图像表示为图结构，并介绍了一种新的 Vision GNN（ViG）体系结构，用于提取视觉任务的图级特征。ViG 由 Grapher 模块和 FFN 模块组成，可用于图形聚合、更新图形信息以及节点特征变换。该体系结构在图像识别和目标检测任务方面表现出优异性能，并希望将来的研究能够从中获得启发。

Jun, 2022

使用梯度加权类激活映射引导 DNN 的注意力进行人脸属性分类

本文提出一种交互式的方法，通过手动指定区域，让分类器注意到这些区域，以减轻共现偏差对预训练深度神经网络的影响，在 CelebA 数据集上测试并 fine-tuned 预训练 AlexNet 以关注指定的面部属性。

May, 2019

SANVis：用于理解自注意力网络的视觉分析

本文介绍了一种名为 SANVis 的可视化分析系统，旨在帮助用户理解多头自我注意力网络的行为和特征，其中通过 Transformer 模型的使用展示了 SANVis 在机器翻译任务中的使用场景。

Sep, 2019

多头多层注意力机制用于深度语言表示的语法错误检测

利用经过预训练的语言表示模型的中间和最终层提取句子中的语法错误特征，通过多头多层的注意力模型，使用 Bidirectional Encoder Representation from Transformers (BERT) ，在三个语法错误数据集上实现更好的 F_0.5 分数，比当前最先进的方法分别高出 6.0（FCE），8.2（CoNLL14）和 12.2（JFLEG）个百分点，并证明利用多头多层注意力，我们的模型可以利用句子中每个记号的更广泛信息。

Apr, 2019