本文提出使用卷积神经网络 (CNN) 解决图像问答 (QA) 问题,通过三个 CNN 模型来提升图像和问题共同表示的分类能力。经过 DAQUAR 和 COCO-QA 两个基准测试集的测试,本文的模型表现显著优于现有的最优解。
Jun, 2015
本研究提出一种注意力机制的卷积神经网络,可用于解决视觉问答任务,有效提升已有方法的准确率,并生成与问题相关的关注区域。
Nov, 2015
提出了一种结合图像内容的内部表示和来自广义知识库提取的信息以回答广泛的基于图像的问题的视觉问答方法,可回答自然语言提出的关于图像内容以外信息的问题,显示在 Toronto COCO-QA 和 MS COCO-VQA 数据集上获得最佳结果。
本文提出了在成功的卷积神经网络-循环神经网络方法中加入高级概念的方法,并证明其在图像字幕和视觉问答中取得了显著的改进。 该机制还可用于合并外部知识,特别是允许在图像中回答有关内容的问题,即使图像本身不能提供完整答案。
Mar, 2016
本文针对视觉问答任务进行综述,比较传统的视觉元素和常识知识融合的方法。并对数据集进行了评估,结合Visual Genome数据集中的图像结构注释研究了不同复杂度的问答对。最后讨论了未来发展方向,重点关注结构化知识库和自然语言处理模型的连接。
Jul, 2016
本文分析了现有的视觉问答(VQA)算法,并使用一个新数据集进行了评估,提出了新的评估方案来补偿过度展示的问题类型,并研究了不同算法的优缺点和注意力机制的作用。
Mar, 2017
本文介绍了一种用于视觉实例辨析的问答生成方法,通过提出一个包含超过1万张图像和相应的有辨识度和无辨识度问题样本的数据集,以及利用现有的视觉问答数据集进行弱监督学习,显著超越了传统对比方法。
Aug, 2017
该研究提出了一种新的概率模型,用于视觉问答中的多项选择,将嵌入视觉、问答和回答,并考虑到回答之间的语义关系,从而提高了对新问题的表现。
Jun, 2018
本文提出了一种基于数据增强的方法 SimpleAug,在不增加人工标注数量的情况下,将数据集中隐含的知识显式化,以此加强针对多模态信息的视觉问答模型,并在两个基准数据集上取得了不错的表现。
Sep, 2021
本文介绍了一种针对多张图片中远程问答的视觉问答模型,并提出了一个名为 RETVQA 的具有多图和检索需求的新数据集,使用 MI-BART 模型在该数据集上取得了良好的表现。
Jun, 2023