视觉问答中的人类注意力：人类和深度网络是否注视相同的区域？

Jun, 2016

视觉问答中的人类注意力：人类和深度网络是否注视相同的区域？

Human Attention in Visual Question Answering: Do Humans and Deep Networks Look at the Same Regions?

Abhishek Das, Harsh Agrawal, C. Lawrence Zitnick, Devi Parikh, Dhruv Batra

TL;DR我们设计了多个游戏化的新颖注意力注释界面，要求对象放大模糊图像的区域以回答有关图像的问题，进而在Visual Question Answering（VQA）中进行了大规模的人类注意力研究，引入了VQA-HAT（Human Attention）数据库集合，将最先进的VQA模型生成的注释地图与人类注意力进行了定性（通过可视化）和定量（通过等级相关性）的评估，总体而言，我们的实验表明，目前VQA中的注意力模型似乎没有关注与人类相同的区域。

Abstract

We conduct large-scale studies on `human attention' in visual question answering (VQA) to understand where humans choose to look to answer questions about images. We design and test multiple game-inspired novel a

发现论文，激发创造

问、看、答：探索基于问题引导的空间关注用于视觉问答

该论文探讨了图像和语言理解的问题，提出了一种基于神经网络的空间记忆网络模型，通过注意力机制进行推理，并在两个视觉问答数据集上取得了改进的结果。

Nov, 2015

视觉问答的层次化问题-图像协同注意力

通过建立视觉注意力和问题注意力相结合的协作注意力模型，使用新型一维卷积神经网络来在分层结构中处理问题，从而使VQA数据集上的性能从60.3％提高到60.5％，并且在COCO-QA数据集上从61.6％提高到63.3％。在加入 ResNet 模型后，VQA 指标进一步提升至 62.1%，COCO-QA 指标达到 65.4%。

May, 2016

视觉问答中的人类关注：人类和深度神经网络是否看同一区域？

我们通过设计游戏化的注意力注释接口，在Visual Question Answering（VQA）中对人类注意力进行了大规模研究，为此引入了VQA-HAT数据集，在定性和定量方面评估VQA模型生成的注意力信息与人类注意力的相似性。研究结果表明，当前的VQA注意力模型似乎没有关注与人类注意力相同的区域。

Jun, 2016

分析视觉问答模型的行为

本文研究了基于深度学习模型的视觉问答模型，发现现有模型的准确率在60-70％之间，且本文提出系统分析这些模型行为的方法，发现这些模型存在缺点，包括不够全面、容易得出错误答案和不易更正的问题。

Jun, 2016

探究视觉问答中人类注意力监督

本研究主要针对如何将注意力监督应用于基于Attention机制的视觉问答任务中，提出人类注意力网络（HAN）来生成类似于人类的注意力图，并将其应用于VQA v2.0数据集中。实验结果表明，该方法能够产生更准确的注意力机制和更好的性能。

Sep, 2017

用于视觉问答的高阶注意力模型

本文提出了一种新颖且通用的注意力机制，可以学习不同数据模态之间的高阶相关性。作者实验证明高阶相关性可以将适当的关注点引导到不同数据模态中的相关元素，来更好地解决联合任务，如视觉问答（VQA），在 VQA 标准数据集上实现了最先进的性能。

Nov, 2017

通过密集对称共同注意力改进视觉与语言表示的融合用于视觉问答

本文提出了一种基于多步交互和注意力机制的简单且完全对称的网络结构方案，用于解决视觉问答中视觉和语言特征的融合问题，并取得了新的最优结果，而提出的注意力机制也能够生成合理的注意力图从而正确预测答案。

Apr, 2018

视觉问答系统的注意力分析

本文结合注意力机制提出了两种最先进的视觉问答方法，并通过可视化和分析它们的估计注意力图来研究它们的鲁棒性和缺点。研究表明两种方法对特征敏感，同时对于计数和多对象相关的问题表现不佳。该研究结果和分析方法可帮助研究人员识别重要的挑战，以改进自己的VQA系统。

Oct, 2018

视觉问答的深度模块化协同注意力网络

本文提出了一种深度Modular Co-Attention Network模型，用于有效处理Visual Question Answering中的co-attention问题，并在评估中显示了显著优于其他方法的性能。

Jun, 2019

用正确的图像区域回答问题: 一种视觉关注正则化方法

本文提出一种名为AttReg的视觉关注正则化方法，用于更好地在VQA中进行视觉基础。AttReg首先确定对于问题回答而言关键的图像区域，然后利用基于掩蔽的学习方案来规范化视觉关注，使其更专注于这些被忽略的关键区域。在三个基准数据集上的广泛实验证明，AttReg的有效性，此外，在将AttReg整合到强大的基线LMH中时，我们的方法在VQA-CP v2基准数据集上实现了60.00％的新最高准确度，与具有绝对性能增益的7.01％。

Feb, 2021