基于记忆增强的多线索推理的知识驱动视觉问答
提出了一种结合图像内容的内部表示和来自广义知识库提取的信息以回答广泛的基于图像的问题的视觉问答方法,可回答自然语言提出的关于图像内容以外信息的问题,显示在 Toronto COCO-QA 和 MS COCO-VQA 数据集上获得最佳结果。
Nov, 2015
本文提出了一种基于二元分类的简单替代模型来解决视觉问答中的一些问题,并通过在Visual7W Telling和VQA Real Multiple Choice任务上的实验表明该模型的简单版本同样具有竞争力,同时,作者发现现有的视觉问答系统性能的瓶颈可能在于其对问题及答案中基础概念的不足认知,其表现相对于充分利用数据集偏见的系统并没有显著提升。
Jun, 2016
本文针对视觉问答任务进行综述,比较传统的视觉元素和常识知识融合的方法。并对数据集进行了评估,结合Visual Genome数据集中的图像结构注释研究了不同复杂度的问答对。最后讨论了未来发展方向,重点关注结构化知识库和自然语言处理模型的连接。
Jul, 2016
本文采用记忆增强型神经网络,通过选择性地关注每个训练示例的内部和外部记忆块来预测视觉问题的准确答案。实验结果表明,所提出的算法在两个大规模基准数据集上具有优越的性能及与现有技术的比较。
Jul, 2017
本文提出了一种基于动态记忆网络和外部知识库的VQA算法,通过对外部知识的检索和动态记忆网络对知识和图像的关注与推理,有效地回答包括开放领域问题在内的更复杂问题,并在视觉问答任务中取得了最好的表现。
Dec, 2017
本文提出了一种基于VKMN的视觉知识存储网络,通过End-to-End的学习框架将结构化人类知识和深度视觉特征融入到记忆网络中来对抗视觉问答中缺乏对结构化知识的利用的问题,并在VQA 1.0和VQA 2.0基准测试中表现出显著的性能优势,特别是在涉及知识推理的问题方面。
Jun, 2018
本文提出了基于多个知识图谱的知识的视觉问答模型,通过串联的 GRUC 模块,对不同模态的图像信息进行并行推理,最终利用图神经网络获得全局最优解,在三个流行基准数据集上获得新的 state-of-the-art 表现结果。
Aug, 2020
本文提出一种名为动态知识记忆增强多步图推理(DMMGR)的新型模型,能够在键-值知识记忆模块和空间感知图像图上执行显式和隐式推理,并在KRVQR和FVQA数据集上实现了新的最先进的准确性。
Mar, 2022
我们分析了基于知识的视觉问答,研究问题是:1)我们能通过显式有监督检索相关知识解决知识库-视觉问答问题吗?2)任务特定模型和预训练语言模型在视觉和外部知识的整合以及多跳推理方面的表现如何?3)预训练语言模型的隐式知识足够用于知识库-视觉问答吗?结果表明,将特定任务和预训练语言模型与显式的外部和视觉知识检索模型相结合可以取得良好效果。预训练语言模型在1跳推理方面更强,但在2跳推理方面不如我们精调的神经网络模型,尽管两种模型都可以获取两种信息的相关信息。此外,我们观察到预训练语言模型在与知识库相关的问题上优于神经网络模型,这证实了预训练语言模型中隐式知识的有效性,然而,它们并不能代替对外部知识的需求。
Apr, 2024
我们研究了基于知识的视觉问答问题,通过将复杂问题替换为多个简单问题,从图像中提取更相关的信息来增强对图像的理解,并在三个著名的视觉问答数据集中实现了高达2%的准确率提升。
Jun, 2024