本研究旨在通过新的模型和数据集解决基于图像的问答问题,使用神经网络和视觉语义嵌入预测有关图像的简单问题的答案,提出了一种将图片描述转化为问答格式的问题生成算法,为新的数据集提供了基线结果。
May, 2015
本研究提出一种注意力机制的卷积神经网络,可用于解决视觉问答任务,有效提升已有方法的准确率,并生成与问题相关的关注区域。
Nov, 2015
提出了一种结合图像内容的内部表示和来自广义知识库提取的信息以回答广泛的基于图像的问题的视觉问答方法,可回答自然语言提出的关于图像内容以外信息的问题,显示在 Toronto COCO-QA 和 MS COCO-VQA 数据集上获得最佳结果。
本文针对视觉问答任务进行综述,比较传统的视觉元素和常识知识融合的方法。并对数据集进行了评估,结合Visual Genome数据集中的图像结构注释研究了不同复杂度的问答对。最后讨论了未来发展方向,重点关注结构化知识库和自然语言处理模型的连接。
Jul, 2016
本文提出通过建立基于场景信号和问题信息的图结构,应用深度神经网络分析问题的方法来提升视觉问答(VQA)的性能,相比于基于CNN/LSTM的VQA方法,本方法获得了显著的改善,其准确性从71.2%提高到74.4%,在不同的“平衡”场景中的准确性则提高了4.4%。
Sep, 2016
研究使用深度学习框架解决视觉问答任务的方法,探索LSTM网络和VGG-16、K-CNN卷积神经网络提取图像特征,将其与问题的词嵌入或句子嵌入相结合进行答案预测。在Visual Question Answering Challenge 2016中获得了53.62%的准确率。
Oct, 2016
本研究提出将端到端的VQA分解为解释和推理两步,使用预训练的属性检测器和图像字幕模型提取图像属性和生成图像描述,然后使用推理模块将这些解释代替图像推断问题的答案。通过对热门VQA数据集进行实验,我们证明了该系统具备解释性和进一步提高解释质量的内在能力。
Jan, 2018
本文提出了一种基于VKMN的视觉知识存储网络,通过End-to-End的学习框架将结构化人类知识和深度视觉特征融入到记忆网络中来对抗视觉问答中缺乏对结构化知识的利用的问题,并在VQA 1.0和VQA 2.0基准测试中表现出显著的性能优势,特别是在涉及知识推理的问题方面。
Jun, 2018
针对视觉问答中存在的通用知识推理难题,提出一种基于事实的视觉问答任务,并探索了利用实体图和图卷积网络联合推理来解决问题,相对于现有算法在准确率上有显著提高。
Nov, 2018
通过在视觉问题回答(VQA)过程中利用图像描述作为中介步骤,建立零样本设置,探索了零样本VQA的影响。比较了最先进的图像描述模型对于不同问题类型的VQA性能在结构和语义上的影响,并在VQA过程中提出了一种简单高效的问题驱动图像描述方法,通过提取问题关键词、为每个图像-问题对生成描述,并将问题驱动的描述传输到大型语言模型中。研究发现利用图像描述和大型语言模型的能力,在零样本设置下能够实现竞争性的GQA性能。
Apr, 2024