该论文探讨了图像和语言理解的问题,提出了一种基于神经网络的空间记忆网络模型,通过注意力机制进行推理,并在两个视觉问答数据集上取得了改进的结果。
Nov, 2015
本文提出了在成功的卷积神经网络-循环神经网络方法中加入高级概念的方法,并证明其在图像字幕和视觉问答中取得了显著的改进。 该机制还可用于合并外部知识,特别是允许在图像中回答有关内容的问题,即使图像本身不能提供完整答案。
Mar, 2016
通过建立视觉注意力和问题注意力相结合的协作注意力模型,使用新型一维卷积神经网络来在分层结构中处理问题,从而使VQA数据集上的性能从60.3%提高到60.5%,并且在COCO-QA数据集上从61.6%提高到63.3%。在加入 ResNet 模型后,VQA 指标进一步提升至 62.1%,COCO-QA 指标达到 65.4%。
May, 2016
本文针对视觉问答任务进行综述,比较传统的视觉元素和常识知识融合的方法。并对数据集进行了评估,结合Visual Genome数据集中的图像结构注释研究了不同复杂度的问答对。最后讨论了未来发展方向,重点关注结构化知识库和自然语言处理模型的连接。
Jul, 2016
本文分析了现有的视觉问答(VQA)算法,并使用一个新数据集进行了评估,提出了新的评估方案来补偿过度展示的问题类型,并研究了不同算法的优缺点和注意力机制的作用。
Mar, 2017
本文提出了一种新颖的问题引导的混合卷积神经网络架构,解决了在学习多模态特征时通常会放弃视觉空间信息的问题,并通过引入问题引导核对提高了问题与图像之间的关联性,在减少参数大小和缓解过拟合方面应用组卷积以及与现有双线性汇聚融合和基于关注的问答方法相结合,在公共VQA数据集上进行了大量实验并验证了该方法的有效性。
Aug, 2018
本文提出了一种深度Modular Co-Attention Network模型,用于有效处理Visual Question Answering中的co-attention问题,并在评估中显示了显著优于其他方法的性能。
Jun, 2019
本篇综述介绍了视觉问答(VQA)任务,包括基于自然语言描述的图像识别以及机器学习模型的研究,主要探讨了近期在该领域中公布的数据集、新的深度学习模型以及基于 VQA 模型的一些应用研究和挑战。
Aug, 2019
本文提出了一种模块化的神经架构,特别针对 VQA 任务中的卷积神经网络模块,通过网络的稀疏性提高了模型的运行效率,实验表明其可与传统的 CNN VQA 模型相媲美。
Sep, 2019
本文提出了一种改进的基于注意力机制的架构,其中包括一个对注意力结果和查询进行关系确定的AoA模块,并提出了多模态融合模块来组合视觉和文本信息,结果在VQA-v2基准数据集上达到了最先进的性能。
Nov, 2020