提出了一种结合图像内容的内部表示和来自广义知识库提取的信息以回答广泛的基于图像的问题的视觉问答方法,可回答自然语言提出的关于图像内容以外信息的问题,显示在 Toronto COCO-QA 和 MS COCO-VQA 数据集上获得最佳结果。
Nov, 2015
本文针对视觉问答任务进行综述,比较传统的视觉元素和常识知识融合的方法。并对数据集进行了评估,结合Visual Genome数据集中的图像结构注释研究了不同复杂度的问答对。最后讨论了未来发展方向,重点关注结构化知识库和自然语言处理模型的连接。
Jul, 2016
该论文提出了一种在视觉问答任务中使用通感推理的方法,该方法可以通过显式推理层来解决一些需要额外知识的问题,并提供可解释性的界面。该推理层采用了基于概率的软逻辑引擎,并运用了一篮子输入来进行推理。实验证实了该方法的有效性。
Mar, 2018
本研究提出了一个新的 HVQR 基准,用于评估 VQA 系统的解释能力和高阶推理能力,该基准具有多级推理、常识知识库和知识路由模块等特点,并通过大规模数据集进行验证。
Sep, 2019
本文提出了基于多个知识图谱的知识的视觉问答模型,通过串联的 GRUC 模块,对不同模态的图像信息进行并行推理,最终利用图神经网络获得全局最优解,在三个流行基准数据集上获得新的 state-of-the-art 表现结果。
Aug, 2020
本文提出了一种新的推理框架来填补VQA任务中视觉特征和语义线索之间的语义鸿沟,实现了特征和谓词的有效联合学习,并在三个大规模数据集上实现了其他最先进方法无法比拟的准确度,同时还提供了一种可解释的方式来理解深度神经网络在预测答案时的决策。
Oct, 2021
本研究提出了一种基于文本的视觉问题解答系统,此系统无需额外外部知识,仅利用BERT模型进行重新提问,表现优异,且仅使用训练数据的10%。
Feb, 2022
本文提出一种名为动态知识记忆增强多步图推理(DMMGR)的新型模型,能够在键-值知识记忆模块和空间感知图像图上执行显式和隐式推理,并在KRVQR和FVQA数据集上实现了新的最先进的准确性。
Mar, 2022
这篇研究论文介绍了一种基于知识的视觉问答(KB-VQA)问题的方法,通过在上下文中进行高效的学习,使用问题相关的标题作为上下文信息,而无需训练或访问外部数据库或API,实现了最先进的准确度。
Oct, 2023
我们研究了基于知识的视觉问答问题,通过将复杂问题替换为多个简单问题,从图像中提取更相关的信息来增强对图像的理解,并在三个著名的视觉问答数据集中实现了高达2%的准确率提升。
Jun, 2024