本文提出了一种基于VKMN的视觉知识存储网络,通过End-to-End的学习框架将结构化人类知识和深度视觉特征融入到记忆网络中来对抗视觉问答中缺乏对结构化知识的利用的问题,并在VQA 1.0和VQA 2.0基准测试中表现出显著的性能优势,特别是在涉及知识推理的问题方面。
Jun, 2018
本研究提出了一个新的 HVQR 基准,用于评估 VQA 系统的解释能力和高阶推理能力,该基准具有多级推理、常识知识库和知识路由模块等特点,并通过大规模数据集进行验证。
Sep, 2019
本文提出了一种多模态异构图神经网络来解决基于事实的视觉问答问题,该模型通过逐层的图卷积网络对问题相关证据进行迭代式推理,并在多种数据集上获得了最新的最佳成绩。
Jun, 2020
提出了一种基于知识路线的视觉问题推理 VQA 模型评估数据集,通过控制程序来选择自然场景图和外部知识库中的三元组,强制进行多步推理,并平衡答案分布,以解决现有的 VQA 模型的浅层相关问题和注释程序不均衡的问题。
Dec, 2020
本文提出一种名为动态知识记忆增强多步图推理(DMMGR)的新型模型,能够在键-值知识记忆模块和空间感知图像图上执行显式和隐式推理,并在KRVQR和FVQA数据集上实现了新的最先进的准确性。
Mar, 2022
本文介绍了Visual Question Answering——Graph Neural Network模型,用于解决视觉理解中的概念层次推理问题,与现有模型相比,该模型将图像级别信息和概念知识进行了统一,并在VCR任务中取得了优于Trans-VL模型的最佳结果。此外,该模型还提供了跨视觉和文本知识领域的可解释性。
May, 2022
基于知识的视觉问答(KVQA)对于利用外部知识,如知识图谱(KGs)来回答视觉问题进行了广泛研究。本文提出了一种新颖的LLMs模态感知集成方法(MAIL),用于KVQA,它巧妙地利用多模态知识进行图像理解和知识推理,并在两个基准数据集上的实验证明了MAIL的卓越性能。
Feb, 2024
我们提出两个协同模型:知识浓缩模型和知识推理模型。这两种浓缩的知识被无缝地集成到我们的知识推理模型中,巧妙地导航综合信息以得出最终答案。与以前的方法相比,我们的方法在基于知识的VQA数据集上(OK-VQA的65.1%,A-OKVQA的60.1%)取得了最先进的性能,而不依赖GPT-3(175B)生成的知识。
Mar, 2024
通过提供来自知识图谱中提取的相关外部知识,我们通过增强问题并实现可变数量的三元组,为知识增强的视觉问答模型带来了平均4.75%的准确匹配得分提升,并展示了其在推理能力和泛化能力方面的优势。
Jun, 2024
我们研究了基于知识的视觉问答问题,通过将复杂问题替换为多个简单问题,从图像中提取更相关的信息来增强对图像的理解,并在三个著名的视觉问答数据集中实现了高达2%的准确率提升。