本文提出了一种直接模拟语言和所有可能的本地图像补丁之间的时态动态的端到端方法,使用注意机制将与单词相关的特征和多个本地补丁上可用的特征融合在一起,并将融合的信息进一步结合生成动态信息,最终通过标准问题回答模块和上下文视觉信息和语言信息一起完成问题回答。
Nov, 2015
提出了一种结合图像内容的内部表示和来自广义知识库提取的信息以回答广泛的基于图像的问题的视觉问答方法,可回答自然语言提出的关于图像内容以外信息的问题,显示在 Toronto COCO-QA 和 MS COCO-VQA 数据集上获得最佳结果。
本文通过分析动态记忆网络并提出多项改进,包括一种新的图像输入模块,实现在缺乏支持事实的情况下回答问题,该新型DMN + 模型成功应用于视觉问答数据集和文本问答数据集上,且无需支持事实监督。
Mar, 2016
本文针对视觉问答任务进行综述,比较传统的视觉元素和常识知识融合的方法。并对数据集进行了评估,结合Visual Genome数据集中的图像结构注释研究了不同复杂度的问答对。最后讨论了未来发展方向,重点关注结构化知识库和自然语言处理模型的连接。
Jul, 2016
本文提出了一种基于VKMN的视觉知识存储网络,通过End-to-End的学习框架将结构化人类知识和深度视觉特征融入到记忆网络中来对抗视觉问答中缺乏对结构化知识的利用的问题,并在VQA 1.0和VQA 2.0基准测试中表现出显著的性能优势,特别是在涉及知识推理的问题方面。
Jun, 2018
本文提出了基于多个知识图谱的知识的视觉问答模型,通过串联的 GRUC 模块,对不同模态的图像信息进行并行推理,最终利用图神经网络获得全局最优解,在三个流行基准数据集上获得新的 state-of-the-art 表现结果。
Aug, 2020
本研究提出了一种基于文本的视觉问题解答系统,此系统无需额外外部知识,仅利用BERT模型进行重新提问,表现优异,且仅使用训练数据的10%。
Feb, 2022
本文提出一种名为动态知识记忆增强多步图推理(DMMGR)的新型模型,能够在键-值知识记忆模块和空间感知图像图上执行显式和隐式推理,并在KRVQR和FVQA数据集上实现了新的最先进的准确性。
Mar, 2022
通过生成多个线索进行推理的记忆神经网络(MCR-MemNN)作为一种全新的框架用于视觉问答,可以更好地利用外部知识来回答更一般性的问题,并且在各模态(图像、问题和知识库)中捕捉到最相关的信息。
Dec, 2023
通过提供来自知识图谱中提取的相关外部知识,我们通过增强问题并实现可变数量的三元组,为知识增强的视觉问答模型带来了平均4.75%的准确匹配得分提升,并展示了其在推理能力和泛化能力方面的优势。
Jun, 2024