ViT-ReciproCAM: 用于视觉转换器的无梯度与无注意力的视觉解释

Oct, 2023

ViT-ReciproCAM: 用于视觉转换器的无梯度与无注意力的视觉解释

ViT-ReciproCAM: Gradient and Attention-Free Visual Explanations for Vision Transformer

Seok-Yong Byun, Wonju Lee

TL;DR本文提出了一种新颖的方法来解决 Vision Transformers (ViT) 在计算机视觉任务中对图像分类和目标检测等方面表现出的优异性能的预测过程理解和调试预测错误的挑战。我们提出了一种名为 ViT-ReciproCAM 的梯度无关的视觉解释方法，该方法不需要关注矩阵和梯度信息，并通过利用激活的令牌和网络预测之间的相关性来生成更局部化的显著性地图，从而在 ADCC 指标上优于现有最先进的相关性方法。实验证明了 ViT-ReciproCAM 方法的有效性，展示了其在理解和调试 ViT 模型方面的潜力，并提供了一种高效易实现的生成视觉解释的替代方法。

Abstract

This paper presents a novel approach to address the challenges of understanding the prediction process and debugging prediction errors in Vision Transformers (ViT), which have demonstrated superior performance in various computer vision tasks such as image classification and object det

vision transformers visual explainability vit-reciprocam gradient-free computer vision

发现论文，激发创造

注意力导向 CAM：自注意力引导视觉变换器的视觉解释

我们提出了一种应用于 Vision Transformer 的注意力引导可视化方法，该方法能够为其决策提供高级语义解释，并以类标签为唯一的输入，具备出色的定位性能，在弱监督定位任务中胜过了之前领先的解释方法，并具备捕获目标类对象的完整实例的能力

Feb, 2024

GradViT: Vision Transformers 的梯度反演

该论文展示了视觉转换器（ViTs）对基于渐变的反演攻击的易受攻击性。作者提供了一种名为 GradViT 的方法，可以将随机噪声优化为自然图像，以通过迭代过程重建原始数据批次。作者发现 Vision Transformers 由于注意机制的存在，比之前研究过的 CNNs 容易受到攻击。作者的方法具有卓越的定量与定性表现。

Mar, 2022

基于 Transformer 的可解释多摄像头 3D 物体检测与显著性图

我们提出了一种新颖的方法，用于生成用于 3D 物体检测的具有多个相机输入的 DetR-like ViT 的显著性图。我们的方法基于原始注意力，比基于梯度的方法更高效。通过大量的扰动测试，我们在 nuScenes 数据集上评估了所提出的方法，并展示了其在视觉质量和定量指标方面优于其他可解释性方法。我们还展示了在转换器的不同层之间聚合注意力的重要性。我们的工作有助于开发 ViT 的可解释 AI，通过更透明地了解 AI 模型的内部工作，可以提高人们对 AI 应用的信任。

Dec, 2023

Grad-CAM: 基于梯度的定位，通过深度网络提供视觉解释

该论文提出了 Gradient-weighted Class Activation Mapping (Grad-CAM) 技术，结合细粒度的可视化方法，通过对 CNN 模型中任意目标概念的梯度进行处理，使得决策更加透明和可解释，同时能够定位各个重要部件，提高模型泛化性。作者通过将 Grad-CAM 应用于图像分类、字幕和视觉问答模型，并通过人机交互实验证明，该技术能够帮助用户建立模型的信任度并成功辨别模型的强弱。

Oct, 2016

WeakTr: 探索用于弱监督语义分割的普通视觉 Transformer

本文探讨了 Vision Transformer (ViT) 在弱监督语义分割 (WSSS) 中的属性。在提出的 WeakTr 框架中，通过自适应融合自注意力图来具有更完整的对象的高质量 CAM 结果。在标准基准测试中，WeakTr 实现了最先进的 WSSS 性能，即在 PASCAL VOC 2012 的 val set 上达到 78.4% 的 mIoU，在 COCO 2014 的 val set 上达到 50.3% 的 mIoU。

Apr, 2023

面向医学成像的视觉 Transformer 解释评价

本文研究了在医学影像学领域中，Vision Transformer (ViT) 解释方法的表现，证明了 Transformer 的逐层相关传播法胜过本地可解释的模型不可知性解释和注意力可视化方法，在准确和可靠地表示 ViT 已经学到了什么方面提供了更好的表现。

Apr, 2023

LeGrad：通过特征形成敏感度的视觉 Transformer 可解释性方法

针对 Vision Transformers（ViTs）这一计算机视觉领域的标准架构在可解释性方面的挑战，提出了一种名为 LeGrad 的特定于 ViTs 的解释性方法。该方法使用自我注意机制计算与 ViT 层的注意力图相关的梯度，将梯度作为解释性信号。通过聚合所有层的信号，并结合最后一个标记和中间标记的激活，生成合并的解释性图，从而使 LeGrad 成为增强 ViTs 透明性的一种概念简单且易于实现的工具。在具有挑战性的分割、扰动和开放词汇的场景中对 LeGrad 进行评估，展示了与其他状态 - of-the-art 解释性方法相比的多功能性，展示了其更优越的空间保真度和对扰动的鲁棒性。

Apr, 2024

面向视觉 Transformer 的类别判别注意力图

深度神经网络的解释性方法是关键组成部分，用于检查和探索神经网络，增加我们对其的理解和信任。我们介绍了一种高度敏感于目标类别的后期解释方法，即类别判别性注意力图（CDAM），它通过缩放注意力分数来确定相应的令牌对分类器预测的相关性。与像素遮蔽方法相比，CDAM 具有高度的类别区分性和语义相关性，同时提供了隐式的相关性评分正则化。

Dec, 2023

上下文视觉转换器用于稳健表征学习

提出了一种称为 Contextual Vision Transformers (ContextViT) 的方法，能够为表现出分组结构的图像生成稳健的特征表示。该方法使用额外的上下文令牌来编码组特定信息，并将其附加到输入图像令牌中，从而使模型能够解释特定于组的协变结构，同时保持跨组共享的核心视觉特征，以提高模型对图像的泛化能力。在监督微调和自监督学习任务中均表现良好。

May, 2023

PriViT：用于快速私密推理的视觉 Transformer

使用 PriViT 算法，通过温和改变 Vision Transformer 结构中的非线性变换，实现了在维持预测准确性的同时，适应安全多方计算（MPC）协议的隐私预测，相比于现有方案，PriViT 在延迟 - 准确性的 Pareto 最优曲线方面取得改进。

Oct, 2023