GTA：从对象中心表示中引导空间注意力的传输

Jan, 2024

GTA：从对象中心表示中引导空间注意力的传输

GTA: Guided Transfer of Spatial Attention from Object-Centric Representations

SeokHyun Seo, Jinwoo Hong, JungWoo Chae, Kyungyul Kim, Sangheum Hwang

TL;DR通过对 ViT 中的注意力图进行实验分析，我们观察到当在小数据集上训练时，丰富的表示能力会恶化。受此发现启发，我们提出了一种名为 GTA 的新颖简单的 ViT 正则化方法，这种方法通过显式正则化源模型和目标模型之间的自注意力图，使目标模型能充分利用与目标定位属性相关的知识。我们的实验结果表明，当训练数据数量较少时，所提出的 GTA 在五个基准数据集上都能稳定提高准确性。

Abstract

Utilizing well-trained representations in transfer learning often results in superior performance and faster convergence compared to training from scratch. However, even if such good representations are transferr

transfer learning convergence overfitting vit regularization method

发现论文，激发创造

注意力导向 CAM：自注意力引导视觉变换器的视觉解释

我们提出了一种应用于 Vision Transformer 的注意力引导可视化方法，该方法能够为其决策提供高级语义解释，并以类标签为唯一的输入，具备出色的定位性能，在弱监督定位任务中胜过了之前领先的解释方法，并具备捕获目标类对象的完整实例的能力

Feb, 2024

GTA：一种面向几何的多视角 Transformer 的注意机制

通过提出一种几何感知注意机制 (Geometric Transform Attention, GTA) 来对几何结构进行编码，改进了基于 Transformer 的多视角合成模型的学习效率和性能，无需额外学习参数且计算开销较小。

Oct, 2023

引导端到端驾驶模型的注意力

通过使用显著语义地图进行训练期间添加损失项，引导注意力可以改善自动驾驶模型的驾驶质量，并获得更直观的激活图，特别是在数据和计算资源有限的情况下。

Apr, 2024

TransferAttn：可传递引导的注意力是视频领域自适应的必需

使用转换器图层作为特征编码器，将空间和时间的可传递性关系融入到注意机制中，提出了 TransferAttn 框架以适应不同骨干的跨领域知识，通过改变自注意机制为可传递性注意机制，引入 DTAB 模块来增加 ViT 的可传递性，验证了 TransferAttn 和 DTAB 在多个数据集和不同骨干下的有效性。

Jul, 2024

基于异质注意力模式的视觉 Transformer 加速

基于观察到的异构注意力模式，在 Vision Transformers 中提出了一种综合压缩方法，通过动态引导的静态自注意力和全局聚合金字塔，加速了运行时间吞吐量，超过了所有 SOTA 方法。

Oct, 2023

用均匀注意力为视觉 Transformer 提供支持

通过研究 Vision Transformers 中的 self-attention 机制密度，得出了密集交互对模型的重要性，并提出了一种新的方法 ——Context Broadcasting (CB)，有效地提高了模型的容量和泛化能力。

Oct, 2022

空间注意力视觉导航

本研究对物体目标视觉导航进行了研究，旨在通过强化学习算法学习智能体的策略。我们提出了一种新的注意概率模型来改进代理策略，并在常用数据集上取得了最先进的结果。

Apr, 2021

引导式关注推理网络：告诉我该看哪里

利用弱监督学习和注意力图，我们提出了一种新的建模方法，使得注意力图成为端到端训练的自然组成部分，并通过直接从网络本身探索监督来直接在这些图上提供自我指导，从而成功地解决了以前方法中的缺点，并在语义分割任务上优于现有技术。

Feb, 2018

视觉 Transformer 中的注意力图统计检验

在这项研究中，我们提出了一种用于 Vision Transformer 的注意力的统计测试方法，通过选择性推理的框架，我们量化了注意力的统计显著性，并将其用于脑图像诊断的应用，以可靠的定量证据指示 Vision Transformer 的决策过程。

Jan, 2024

ConViT：利用软卷积归纳偏置提升视觉 Transformer 性能

本文提出了一种形式的位置自注意力机制：门控位置自注意力，该机制能够同时具备卷积神经网络的空域学习和自注意力层的位置不变性。作者使用这种机制构建了名为 ConViT 的混合卷积 - 自注意力神经网络，通过在 ImageNet 数据集上的实验表明，该网络在图像分类任务上拥有优异的性能和更高的样本效率，并提高了对定位特征的注意力。

Mar, 2021