视觉问答系统的注意力分析
我们设计了多个游戏化的新颖注意力注释界面,要求对象放大模糊图像的区域以回答有关图像的问题,进而在 Visual Question Answering(VQA)中进行了大规模的人类注意力研究,引入了 VQA-HAT(Human Attention)数据库集合,将最先进的 VQA 模型生成的注释地图与人类注意力进行了定性(通过可视化)和定量(通过等级相关性)的评估,总体而言,我们的实验表明,目前 VQA 中的注意力模型似乎没有关注与人类相同的区域。
Jun, 2016
本文提出了一种改进的基于注意力机制的架构,其中包括一个对注意力结果和查询进行关系确定的 AoA 模块,并提出了多模态融合模块来组合视觉和文本信息,结果在 VQA-v2 基准数据集上达到了最先进的性能。
Nov, 2020
本文研究了基于深度学习模型的视觉问答模型,发现现有模型的准确率在 60-70%之间,且本文提出系统分析这些模型行为的方法,发现这些模型存在缺点,包括不够全面、容易得出错误答案和不易更正的问题。
Jun, 2016
通过开发十三种新的注意力机制和引入一种简化的分类器,基于首次在 VQA 挑战中获得第一名的模型进行改进,进行了 300 GPU 小时的大量超参数和架构搜索,我们能够实现 64.78%的评估分数,优于现有最先进的单个模型 63.15%的验证分数。
Mar, 2018
本文提出了一种新颖且通用的注意力机制,可以学习不同数据模态之间的高阶相关性。 作者实验证明高阶相关性可以将适当的关注点引导到不同数据模态中的相关元素,来更好地解决联合任务,如视觉问答(VQA),在 VQA 标准数据集上实现了最先进的性能。
Nov, 2017
该论文探讨使用引导反向传播和遮挡等可视化技术,解释视觉问答(VQA)模型的工作过程,并发现即使没有显式注意机制,VQA 模型有时也会隐含地关注图像中的相关区域和问题中的适当单词。
Aug, 2016
通过建立视觉注意力和问题注意力相结合的协作注意力模型,使用新型一维卷积神经网络来在分层结构中处理问题,从而使 VQA 数据集上的性能从 60.3%提高到 60.5%,并且在 COCO-QA 数据集上从 61.6%提高到 63.3%。在加入 ResNet 模型后,VQA 指标进一步提升至 62.1%,COCO-QA 指标达到 65.4%。
May, 2016
该研究通过比较人类和 VQA 模型在回答与驾驶相关的问题时的注意模式,揭示了观察对象方面的差异。我们提出了一种整合过滤器来优化模型的注意机制的方法,优先考虑相关对象并提高准确性。通过将 LXMERT 模型应用于案例研究,我们比较了预训练模型和整合过滤器模型以及来自 NuImages 数据集的人类答案的注意模式,从而深入了解特征优先级的问题。我们使用一个主观评分框架评估了这些模型,结果显示特征编码器过滤器的整合提高了 VQA 模型的性能,优化了其注意机制。
Jun, 2024
本文提出了一种基于二元分类的简单替代模型来解决视觉问答中的一些问题,并通过在 Visual7W Telling 和 VQA Real Multiple Choice 任务上的实验表明该模型的简单版本同样具有竞争力,同时,作者发现现有的视觉问答系统性能的瓶颈可能在于其对问题及答案中基础概念的不足认知,其表现相对于充分利用数据集偏见的系统并没有显著提升。
Jun, 2016