基于问题分解的知识驱动和视觉推理解耦的知识图谱可视问答
本文针对视觉问答任务进行综述,比较传统的视觉元素和常识知识融合的方法。并对数据集进行了评估,结合Visual Genome数据集中的图像结构注释研究了不同复杂度的问答对。最后讨论了未来发展方向,重点关注结构化知识库和自然语言处理模型的连接。
Jul, 2016
本文研究了视觉问答系统是否能够回答多个经过逻辑组合的问题,并构建了一个逻辑复合和语言转换(否定、析取、合取和反义词)的VQA基准库。其中提出了一种使用问题注意力和逻辑注意力的“Lens of Logic(LOL)”模型,并采用新颖的Frechet-Compatibility Loss来保证组成问题的回答与推断出的逻辑操作一致。该模型在学习逻辑组合时表现出显著的提升,同时保持VQA的性能,从而将逻辑连接词嵌入到视觉理解中实现了鲁棒性的提高。
Feb, 2020
本文提出了基于多个知识图谱的知识的视觉问答模型,通过串联的 GRUC 模块,对不同模态的图像信息进行并行推理,最终利用图神经网络获得全局最优解,在三个流行基准数据集上获得新的 state-of-the-art 表现结果。
Aug, 2020
提出了一种基于知识路线的视觉问题推理 VQA 模型评估数据集,通过控制程序来选择自然场景图和外部知识库中的三元组,强制进行多步推理,并平衡答案分布,以解决现有的 VQA 模型的浅层相关问题和注释程序不均衡的问题。
Dec, 2020
介绍了 A-OKVQA 数据集,它包含了约 25000 个多样化的问题,需要广泛的常识和世界知识才能回答,相对于现有的基于知识的 VQA 数据集,这些问题通常不能通过简单地查询知识库来回答,而是需要对图像中所描绘的场景进行某种形式的常识推理,该数据集对几种最先进的视觉语言模型进行了基础性能测试。
Jun, 2022
知识引导的视觉问题回答(KB-VQA)通过外部知识库的辅助,为图像和相关的文本问题提供正确答案。本文提出了一种名为Graph pATH rankER(GATHER)的新型KB-VQA框架,通过构建图、修剪和路径级别排序,不仅能够准确检索答案,还提供解释推理过程的路径。通过在真实世界问题上的广泛实验,证明了该框架不仅能够在整个知识库上进行开放式问题回答,还能提供明确的推理路径。
Oct, 2023
这篇研究论文介绍了一种基于知识的视觉问答(KB-VQA)问题的方法,通过在上下文中进行高效的学习,使用问题相关的标题作为上下文信息,而无需训练或访问外部数据库或API,实现了最先进的准确度。
Oct, 2023
我们提出两个协同模型:知识浓缩模型和知识推理模型。这两种浓缩的知识被无缝地集成到我们的知识推理模型中,巧妙地导航综合信息以得出最终答案。与以前的方法相比,我们的方法在基于知识的VQA数据集上(OK-VQA的65.1%,A-OKVQA的60.1%)取得了最先进的性能,而不依赖GPT-3(175B)生成的知识。
Mar, 2024
我们分析了基于知识的视觉问答,研究问题是:1)我们能通过显式有监督检索相关知识解决知识库-视觉问答问题吗?2)任务特定模型和预训练语言模型在视觉和外部知识的整合以及多跳推理方面的表现如何?3)预训练语言模型的隐式知识足够用于知识库-视觉问答吗?结果表明,将特定任务和预训练语言模型与显式的外部和视觉知识检索模型相结合可以取得良好效果。预训练语言模型在1跳推理方面更强,但在2跳推理方面不如我们精调的神经网络模型,尽管两种模型都可以获取两种信息的相关信息。此外,我们观察到预训练语言模型在与知识库相关的问题上优于神经网络模型,这证实了预训练语言模型中隐式知识的有效性,然而,它们并不能代替对外部知识的需求。
Apr, 2024
通过提供来自知识图谱中提取的相关外部知识,我们通过增强问题并实现可变数量的三元组,为知识增强的视觉问答模型带来了平均4.75%的准确匹配得分提升,并展示了其在推理能力和泛化能力方面的优势。
Jun, 2024