Explanation vs Attention: 一种用于 VQA 注重力获取的双人博弈

AAAINov, 2019

Explanation vs Attention: 一种用于 VQA 注重力获取的双人博弈

Explanation vs Attention: A Two-Player Game to Obtain Attention for VQA

Badri N. Patro, Anupriy, Vinay P. Namboodiri

TL;DR使用对抗训练作为监督学习来提高注意力映射，改善视觉问答任务的表现，同时与其他学习分布的方法相比，发现对抗损失函数表现更好。

Abstract

In this paper, we aim to obtain improved attention for a visual question answering (VQA) task. It is challenging to provide supervision for attention. An observation we make is that visual explanations as obtained through class activation mappings (specifically Grad-CAM) that are meant

visual question answering attention maps class activation mappings adversarial training supervision

发现论文，激发创造

探究视觉问答中人类注意力监督

本研究主要针对如何将注意力监督应用于基于 Attention 机制的视觉问答任务中，提出人类注意力网络（HAN）来生成类似于人类的注意力图，并将其应用于 VQA v2.0 数据集中。实验结果表明，该方法能够产生更准确的注意力机制和更好的性能。

Sep, 2017

探索可变自编码器的可视化解释

本文提出了一种基于梯度的注意力机制技术，用于解释变分自编码器（VAE）及其预测，该技术通过生成学习到的潜在空间的视觉注意力，可用于图像中异常的定位，并能融入模型训练来帮助改善潜在空间分解，这在 MVTec-AD 和 Dsprites 数据集上表现出了最先进的性能。

Nov, 2019

U-CAM: 基于不确定性的类激活映射的可视化解释

本研究针对深度学习模型的解释提出了一种方法，通过梯度获取与误分类样本更相关的确信度估计和提供视觉注意力图，特别是在视觉问答任务中，该方法采用现代概率深度学习方法，并进一步通过这些估计梯度进行改进，得到具有人类注意区域相关性的先进的注意力图，从而提供了更好的解释能力。我们在所有标准基准测试上提供了详细的实证分析和与现有方法的比较。

Aug, 2019

基于不确定性的视觉问答类激活图

这篇研究提出了一种方法，通过基于梯度的确定性估计来解决视觉问答任务，进一步利用这些估计来获得可视化的注意力图，从而提高深度学习模型的确定性估计和解释能力，并在各项标准基准测试中提供实证分析及与现有方法的比较

Jan, 2020

视觉问答系统的注意力分析

本文结合注意力机制提出了两种最先进的视觉问答方法，并通过可视化和分析它们的估计注意力图来研究它们的鲁棒性和缺点。研究表明两种方法对特征敏感，同时对于计数和多对象相关的问题表现不佳。该研究结果和分析方法可帮助研究人员识别重要的挑战，以改进自己的 VQA 系统。

Oct, 2018

改进的视觉问答注意力机制

本文提出了一种改进的基于注意力机制的架构，其中包括一个对注意力结果和查询进行关系确定的 AoA 模块，并提出了多模态融合模块来组合视觉和文本信息，结果在 VQA-v2 基准数据集上达到了最先进的性能。

Nov, 2020

引导式关注推理网络：告诉我该看哪里

利用弱监督学习和注意力图，我们提出了一种新的建模方法，使得注意力图成为端到端训练的自然组成部分，并通过直接从网络本身探索监督来直接在这些图上提供自我指导，从而成功地解决了以前方法中的缺点，并在语义分割任务上优于现有技术。

Feb, 2018

视觉问答的层次化问题 - 图像协同注意力

通过建立视觉注意力和问题注意力相结合的协作注意力模型，使用新型一维卷积神经网络来在分层结构中处理问题，从而使 VQA 数据集上的性能从 60.3％提高到 60.5％，并且在 COCO-QA 数据集上从 61.6％提高到 63.3％。在加入 ResNet 模型后，VQA 指标进一步提升至 62.1%，COCO-QA 指标达到 65.4%。

May, 2016

面向视觉 Transformer 的类别判别注意力图

深度神经网络的解释性方法是关键组成部分，用于检查和探索神经网络，增加我们对其的理解和信任。我们介绍了一种高度敏感于目标类别的后期解释方法，即类别判别性注意力图（CDAM），它通过缩放注意力分数来确定相应的令牌对分类器预测的相关性。与像素遮蔽方法相比，CDAM 具有高度的类别区分性和语义相关性，同时提供了隐式的相关性评分正则化。

Dec, 2023

问、看、答：探索基于问题引导的空间关注用于视觉问答

该论文探讨了图像和语言理解的问题，提出了一种基于神经网络的空间记忆网络模型，通过注意力机制进行推理，并在两个视觉问答数据集上取得了改进的结果。

Nov, 2015