Oct, 2023

ViT-ReciproCAM: 用于视觉转换器的无梯度与无注意力的视觉解释

TL;DR本文提出了一种新颖的方法来解决 Vision Transformers (ViT) 在计算机视觉任务中对图像分类和目标检测等方面表现出的优异性能的预测过程理解和调试预测错误的挑战。我们提出了一种名为 ViT-ReciproCAM 的梯度无关的视觉解释方法,该方法不需要关注矩阵和梯度信息,并通过利用激活的令牌和网络预测之间的相关性来生成更局部化的显著性地图,从而在 ADCC 指标上优于现有最先进的相关性方法。实验证明了 ViT-ReciproCAM 方法的有效性,展示了其在理解和调试 ViT 模型方面的潜力,并提供了一种高效易实现的生成视觉解释的替代方法。