面向视觉 Transformer 的类别判别注意力图

Dec, 2023

面向视觉 Transformer 的类别判别注意力图

Class-Discriminative Attention Maps for Vision Transformers

Lennart Brocki, Neo Christopher Chung

TL;DR深度神经网络的解释性方法是关键组成部分，用于检查和探索神经网络，增加我们对其的理解和信任。我们介绍了一种高度敏感于目标类别的后期解释方法，即类别判别性注意力图（CDAM），它通过缩放注意力分数来确定相应的令牌对分类器预测的相关性。与像素遮蔽方法相比，CDAM 具有高度的类别区分性和语义相关性，同时提供了隐式的相关性评分正则化。

Abstract

interpretability methods are critical components for examining and exploring deep neural networks (DNN), as well as increasing our understanding of and trust in them. →

interpretability methods vision transformers attention maps class-discriminative attention maps neural networks

发现论文，激发创造

Explanation vs Attention: 一种用于 VQA 注重力获取的双人博弈

使用对抗训练作为监督学习来提高注意力映射，改善视觉问答任务的表现，同时与其他学习分布的方法相比，发现对抗损失函数表现更好。

Nov, 2019

注意力导向 CAM：自注意力引导视觉变换器的视觉解释

我们提出了一种应用于 Vision Transformer 的注意力引导可视化方法，该方法能够为其决策提供高级语义解释，并以类标签为唯一的输入，具备出色的定位性能，在弱监督定位任务中胜过了之前领先的解释方法，并具备捕获目标类对象的完整实例的能力

Feb, 2024

扩张模型中的语义分割的词汇开放式注意力图与令牌优化

通过 Open-Vocabulary Attention Maps (OVAM) 方法，我们提出了一种基于迁移学习的模块 (Nucleus) 来训练大规模的中文文本生成系统 TextGPT，该模型利用 Transformer 将初始输入句子转换成生成句子所需的上下文嵌入向量，然后基于这些上下文嵌入生成生成句子。

Mar, 2024

ViT-ReciproCAM: 用于视觉转换器的无梯度与无注意力的视觉解释

本文提出了一种新颖的方法来解决 Vision Transformers (ViT) 在计算机视觉任务中对图像分类和目标检测等方面表现出的优异性能的预测过程理解和调试预测错误的挑战。我们提出了一种名为 ViT-ReciproCAM 的梯度无关的视觉解释方法，该方法不需要关注矩阵和梯度信息，并通过利用激活的令牌和网络预测之间的相关性来生成更局部化的显著性地图，从而在 ADCC 指标上优于现有最先进的相关性方法。实验证明了 ViT-ReciproCAM 方法的有效性，展示了其在理解和调试 ViT 模型方面的潜力，并提供了一种高效易实现的生成视觉解释的替代方法。

Oct, 2023

TDAM: 基于上下文引导的 CNN 特征选择中的自顶向下注意力模块

该研究提出了一种轻量级的顶部注意力模块 (TDAM)，通过迭代生成一个 “视觉探照灯”，以更多上下文相关的特征图上执行通道和空间调制，从而增强 CNN 在多个目标识别基准测试上的性能，并且能够在不需要显式监督的情况下本地化单个对象或特征。

Nov, 2021

使用注意力机制学习基于 DCNN 的图像分类器的视觉解释

本文提出了两种新的基于学习的 eXplainable AI（XAI）方法，用于深度卷积神经网络（DCNN）图像分类器，称为 L-CAM-Fm 和 L-CAM-Img，通过插入在原始（冻结的）DCNN 中的注意机制，并被训练为从最后一个卷积层的特征映射中导出类激活映射（CAMs）。在 ImageNet 上的实验评估表明，提出的方法在要求单次正向传递的推理阶段实现了竞争结果，并基于推导得出的解释进行了全面的定性分析，提供了有价值的洞察力，用于理解分类错误背后的原因，包括可能影响训练分类器的数据集偏差。

Sep, 2022

RAMS-Trans: 基于循环注意力多尺度变换器进行细粒度图像识别

通过使用注意力权重来测量原始图像对应的补丁符记的重要性，我们提出了递归注意力多尺度转换器 (RAMS-Trans)，它使用变压器的自我注意力以多尺度的方式递归地学习区分地区的注意力。

Jul, 2021

U-CAM: 基于不确定性的类激活映射的可视化解释

本研究针对深度学习模型的解释提出了一种方法，通过梯度获取与误分类样本更相关的确信度估计和提供视觉注意力图，特别是在视觉问答任务中，该方法采用现代概率深度学习方法，并进一步通过这些估计梯度进行改进，得到具有人类注意区域相关性的先进的注意力图，从而提供了更好的解释能力。我们在所有标准基准测试上提供了详细的实证分析和与现有方法的比较。

Aug, 2019

基于注意力引导的特征蒸馏用于语义分割

提出的注意力引导特征蒸馏（AttnFD）方法利用精细特征图来传递关注力，证明了其在语义分割中提取丰富信息的有效性，通过只使用教师和学生的精炼特征图之间的均方误差（MSE）损失函数，在 PascalVoc 2012 和 Cityscapes 数据集上实现了语义分割的最佳性能（mean Intersection over Union，mIoU 达到了最新水平）。

Mar, 2024

GETAM：针对弱监督语义分割的梯度加权元素级 Transformer 注意力图

本文针对弱监督下的语义分割问题，提出了基于 Transformer 的方法，并引入了 Gradient weighted Element wise Transformer Attention Map（GETAM）来提高分类器的效果，并在 PASCAL VOC 和 COCO 数据集上实现了优于现有技术的结果。

Dec, 2021