面向视觉 Transformer 的类别判别注意力图
使用对抗训练作为监督学习来提高注意力映射,改善视觉问答任务的表现,同时与其他学习分布的方法相比,发现对抗损失函数表现更好。
Nov, 2019
我们提出了一种应用于 Vision Transformer 的注意力引导可视化方法,该方法能够为其决策提供高级语义解释,并以类标签为唯一的输入,具备出色的定位性能,在弱监督定位任务中胜过了之前领先的解释方法,并具备捕获目标类对象的完整实例的能力
Feb, 2024
通过 Open-Vocabulary Attention Maps (OVAM) 方法,我们提出了一种基于迁移学习的模块 (Nucleus) 来训练大规模的中文文本生成系统 TextGPT,该模型利用 Transformer 将初始输入句子转换成生成句子所需的上下文嵌入向量,然后基于这些上下文嵌入生成生成句子。
Mar, 2024
本文提出了一种新颖的方法来解决 Vision Transformers (ViT) 在计算机视觉任务中对图像分类和目标检测等方面表现出的优异性能的预测过程理解和调试预测错误的挑战。我们提出了一种名为 ViT-ReciproCAM 的梯度无关的视觉解释方法,该方法不需要关注矩阵和梯度信息,并通过利用激活的令牌和网络预测之间的相关性来生成更局部化的显著性地图,从而在 ADCC 指标上优于现有最先进的相关性方法。实验证明了 ViT-ReciproCAM 方法的有效性,展示了其在理解和调试 ViT 模型方面的潜力,并提供了一种高效易实现的生成视觉解释的替代方法。
Oct, 2023
该研究提出了一种轻量级的顶部注意力模块 (TDAM),通过迭代生成一个 “视觉探照灯”,以更多上下文相关的特征图上执行通道和空间调制,从而增强 CNN 在多个目标识别基准测试上的性能,并且能够在不需要显式监督的情况下本地化单个对象或特征。
Nov, 2021
本文提出了两种新的基于学习的 eXplainable AI(XAI)方法,用于深度卷积神经网络(DCNN)图像分类器,称为 L-CAM-Fm 和 L-CAM-Img,通过插入在原始(冻结的)DCNN 中的注意机制,并被训练为从最后一个卷积层的特征映射中导出类激活映射(CAMs)。在 ImageNet 上的实验评估表明,提出的方法在要求单次正向传递的推理阶段实现了竞争结果,并基于推导得出的解释进行了全面的定性分析,提供了有价值的洞察力,用于理解分类错误背后的原因,包括可能影响训练分类器的数据集偏差。
Sep, 2022
通过使用注意力权重来测量原始图像对应的补丁符记的重要性,我们提出了递归注意力多尺度转换器 (RAMS-Trans),它使用变压器的自我注意力以多尺度的方式递归地学习区分地区的注意力。
Jul, 2021
本研究针对深度学习模型的解释提出了一种方法,通过梯度获取与误分类样本更相关的确信度估计和提供视觉注意力图,特别是在视觉问答任务中,该方法采用现代概率深度学习方法,并进一步通过这些估计梯度进行改进,得到具有人类注意区域相关性的先进的注意力图,从而提供了更好的解释能力。我们在所有标准基准测试上提供了详细的实证分析和与现有方法的比较。
Aug, 2019
提出的注意力引导特征蒸馏(AttnFD)方法利用精细特征图来传递关注力,证明了其在语义分割中提取丰富信息的有效性,通过只使用教师和学生的精炼特征图之间的均方误差(MSE)损失函数,在 PascalVoc 2012 和 Cityscapes 数据集上实现了语义分割的最佳性能(mean Intersection over Union,mIoU 达到了最新水平)。
Mar, 2024
本文针对弱监督下的语义分割问题,提出了基于 Transformer 的方法,并引入了 Gradient weighted Element wise Transformer Attention Map(GETAM)来提高分类器的效果,并在 PASCAL VOC 和 COCO 数据集上实现了优于现有技术的结果。
Dec, 2021