该论文探讨了图像和语言理解的问题,提出了一种基于神经网络的空间记忆网络模型,通过注意力机制进行推理,并在两个视觉问答数据集上取得了改进的结果。
Nov, 2015
本研究提出一种注意力机制的卷积神经网络,可用于解决视觉问答任务,有效提升已有方法的准确率,并生成与问题相关的关注区域。
本文通过分析动态记忆网络并提出多项改进,包括一种新的图像输入模块,实现在缺乏支持事实的情况下回答问题,该新型DMN + 模型成功应用于视觉问答数据集和文本问答数据集上,且无需支持事实监督。
Mar, 2016
通过建立视觉注意力和问题注意力相结合的协作注意力模型,使用新型一维卷积神经网络来在分层结构中处理问题,从而使VQA数据集上的性能从60.3%提高到60.5%,并且在COCO-QA数据集上从61.6%提高到63.3%。在加入 ResNet 模型后,VQA 指标进一步提升至 62.1%,COCO-QA 指标达到 65.4%。
May, 2016
本文针对视觉问答任务进行综述,比较传统的视觉元素和常识知识融合的方法。并对数据集进行了评估,结合Visual Genome数据集中的图像结构注释研究了不同复杂度的问答对。最后讨论了未来发展方向,重点关注结构化知识库和自然语言处理模型的连接。
Jul, 2016
本文提出通过构建基于网格结构条件随机场上的多变量分布的视觉注意力模型来有效地编码复杂的跨区域关系,并将迭代推理算法转换成端到端的神经网络层,该模型在3个数据集上的实验评估结果表明,它超过了新发布的CLEVR数据集的最佳基线模型9.5%,并超过了VQA数据集上最佳发布模型1.25%。
Aug, 2017
本文提出了一种基于多步交互和注意力机制的简单且完全对称的网络结构方案,用于解决视觉问答中视觉和语言特征的融合问题,并取得了新的最优结果,而提出的注意力机制也能够生成合理的注意力图从而正确预测答案。
Apr, 2018
该研究提出了一种新的注意力机制,同时考虑视觉细节的两个层次,即物体实例和它们的部分,通过高效的张量分解方案,设计了分层融合多模态信息的模型并提高了已有模型达到了一个显著的提升。
May, 2018
本文提出了一种深度Modular Co-Attention Network模型,用于有效处理Visual Question Answering中的co-attention问题,并在评估中显示了显著优于其他方法的性能。
Jun, 2019
本文提出了一种改进的基于注意力机制的架构,其中包括一个对注意力结果和查询进行关系确定的AoA模块,并提出了多模态融合模块来组合视觉和文本信息,结果在VQA-v2基准数据集上达到了最先进的性能。
Nov, 2020