用于图像问答的叠加注意力网络

Nov, 2015

Stacked Attention Networks for Image Question Answering

Zichao Yang, Xiaodong He, Jianfeng Gao, Li Deng, Alex Smola

TL;DR本文提出了堆叠式注意力网络（SAN），通过自然语言问题分析图像，发现图像问答需要多层推理，于是我们开发了多层SAN，通过可视化的注意力层，逐层推理以定位答案相关的视觉线索，实验证明SAN明显优于先前的最先进方法。

Abstract

This paper presents stacked attention networks (sans) that learn to answer natural language questions from images. sans use semantic repre

发现论文，激发创造

问、看、答：探索基于问题引导的空间关注用于视觉问答

该论文探讨了图像和语言理解的问题，提出了一种基于神经网络的空间记忆网络模型，通过注意力机制进行推理，并在两个视觉问答数据集上取得了改进的结果。

Nov, 2015

ABC-CNN: 基于注意力的卷积神经网络用于视觉问答

本研究提出一种注意力机制的卷积神经网络，可用于解决视觉问答任务，有效提升已有方法的准确率，并生成与问题相关的关注区域。

Nov, 2015

视觉和文本问答的动态记忆网络

本文通过分析动态记忆网络并提出多项改进，包括一种新的图像输入模块，实现在缺乏支持事实的情况下回答问题，该新型DMN + 模型成功应用于视觉问答数据集和文本问答数据集上，且无需支持事实监督。

Mar, 2016

视觉问答的层次化问题-图像协同注意力

通过建立视觉注意力和问题注意力相结合的协作注意力模型，使用新型一维卷积神经网络来在分层结构中处理问题，从而使VQA数据集上的性能从60.3％提高到60.5％，并且在COCO-QA数据集上从61.6％提高到63.3％。在加入 ResNet 模型后，VQA 指标进一步提升至 62.1%，COCO-QA 指标达到 65.4%。

May, 2016

视觉问答: 方法与数据集综述

本文针对视觉问答任务进行综述，比较传统的视觉元素和常识知识融合的方法。并对数据集进行了评估，结合Visual Genome数据集中的图像结构注释研究了不同复杂度的问答对。最后讨论了未来发展方向，重点关注结构化知识库和自然语言处理模型的连接。

Jul, 2016

视觉问答的结构型注意力

本文提出通过构建基于网格结构条件随机场上的多变量分布的视觉注意力模型来有效地编码复杂的跨区域关系，并将迭代推理算法转换成端到端的神经网络层，该模型在3个数据集上的实验评估结果表明，它超过了新发布的CLEVR数据集的最佳基线模型9.5％，并超过了VQA数据集上最佳发布模型1.25％。

Aug, 2017

通过密集对称共同注意力改进视觉与语言表示的融合用于视觉问答

本文提出了一种基于多步交互和注意力机制的简单且完全对称的网络结构方案，用于解决视觉问答中视觉和语言特征的融合问题，并取得了新的最优结果，而提出的注意力机制也能够生成合理的注意力图从而正确预测答案。

Apr, 2018

视觉问答的互注意融合

该研究提出了一种新的注意力机制，同时考虑视觉细节的两个层次，即物体实例和它们的部分，通过高效的张量分解方案，设计了分层融合多模态信息的模型并提高了已有模型达到了一个显著的提升。

May, 2018

视觉问答的深度模块化协同注意力网络

本文提出了一种深度Modular Co-Attention Network模型，用于有效处理Visual Question Answering中的co-attention问题，并在评估中显示了显著优于其他方法的性能。

Jun, 2019

改进的视觉问答注意力机制

本文提出了一种改进的基于注意力机制的架构，其中包括一个对注意力结果和查询进行关系确定的AoA模块，并提出了多模态融合模块来组合视觉和文本信息，结果在VQA-v2基准数据集上达到了最先进的性能。

Nov, 2020