发现差距：面向视觉问答的知识库推理

Apr, 2024

发现差距：面向视觉问答的知识库推理

Find The Gap: Knowledge Base Reasoning For Visual Question Answering

Elham J. Barezi, Parisa Kordjamshidi

TL;DR我们分析了基于知识的视觉问答，研究问题是：1）我们能通过显式有监督检索相关知识解决知识库-视觉问答问题吗？2）任务特定模型和预训练语言模型在视觉和外部知识的整合以及多跳推理方面的表现如何？3）预训练语言模型的隐式知识足够用于知识库-视觉问答吗？结果表明，将特定任务和预训练语言模型与显式的外部和视觉知识检索模型相结合可以取得良好效果。预训练语言模型在1跳推理方面更强，但在2跳推理方面不如我们精调的神经网络模型，尽管两种模型都可以获取两种信息的相关信息。此外，我们观察到预训练语言模型在与知识库相关的问题上优于神经网络模型，这证实了预训练语言模型中隐式知识的有效性，然而，它们并不能代替对外部知识的需求。

Abstract

We analyze knowledge-based visual question answering, for which given a question, the models need to ground it into the visual modality and retrieve the relevant knowledge from a given large knowledge base (KB) to be able to answer. Our analysis has two folds, one based on designing

发现论文，激发创造

基于跨模态知识推理的基于知识的视觉问答

本文提出了基于多个知识图谱的知识的视觉问答模型，通过串联的 GRUC 模块，对不同模态的图像信息进行并行推理，最终利用图神经网络获得全局最优解，在三个流行基准数据集上获得新的 state-of-the-art 表现结果。

Aug, 2020

基于知识路线的视觉问答推理：深度表示嵌入的挑战

提出了一种基于知识路线的视觉问题推理 VQA 模型评估数据集，通过控制程序来选择自然场景图和外部知识库中的三元组，强制进行多步推理，并平衡答案分布，以解决现有的 VQA 模型的浅层相关问题和注释程序不均衡的问题。

Dec, 2020

视觉和语言推理：探索补充知识的益处

本文研究了将通用知识库中的知识注入视觉-语言模型中，并通过辅助训练目标增加了语义和关系知识的表征，实现了对问题回答、视觉推理等任务中的性能提升，这种技术不依赖于特定的模型，具有较小的计算开销。

Jan, 2021

使用答案启发式来启发大型语言模型进行基于知识的视觉问答

本论文提出了一种名为“Prophet”的框架，采用两个补充答案启发式条目对GPT-3进行提示，以提高其理解任务的能力，从而在基于知识的视觉问答方面显著优于所有现有的最先进方法，分别在OK-VQA和A-OKVQA的测试集上达到了61.1％和55.7％的准确率。

Mar, 2023

基于开放集和知识的视觉问答与推理路径

知识引导的视觉问题回答（KB-VQA）通过外部知识库的辅助，为图像和相关的文本问题提供正确答案。本文提出了一种名为Graph pATH rankER（GATHER）的新型KB-VQA框架，通过构建图、修剪和路径级别排序，不仅能够准确检索答案，还提供解释推理过程的路径。通过在真实世界问题上的广泛实验，证明了该框架不仅能够在整个知识库上进行开放式问题回答，还能提供明确的推理路径。

Oct, 2023

基于知识的视觉问答的简单基准

这篇研究论文介绍了一种基于知识的视觉问答（KB-VQA）问题的方法，通过在上下文中进行高效的学习，使用问题相关的标题作为上下文信息，而无需训练或访问外部数据库或API，实现了最先进的准确度。

Oct, 2023

为视觉问答填补图像信息缺口：引导大规模语言模型主动提问

通过设计一种框架，使得大型语言模型能够主动提问以揭示图像中的更多细节，改进了知识驱动的视觉问答任务的性能。

Nov, 2023

基于知识的VQA的知识浓缩和推理

我们提出两个协同模型：知识浓缩模型和知识推理模型。这两种浓缩的知识被无缝地集成到我们的知识推理模型中，巧妙地导航综合信息以得出最终答案。与以前的方法相比，我们的方法在基于知识的VQA数据集上（OK-VQA的65.1％，A-OKVQA的60.1％）取得了最先进的性能，而不依赖GPT-3（175B）生成的知识。

Mar, 2024

精确赋能，过度分散：动态注入语言模型中的视觉问答知识

通过提供来自知识图谱中提取的相关外部知识，我们通过增强问题并实现可变数量的三元组，为知识增强的视觉问答模型带来了平均4.75％的准确匹配得分提升，并展示了其在推理能力和泛化能力方面的优势。

Jun, 2024

基于问题分解的知识驱动和视觉推理解耦的知识图谱可视问答

我们研究了基于知识的视觉问答问题，通过将复杂问题替换为多个简单问题，从图像中提取更相关的信息来增强对图像的理解，并在三个著名的视觉问答数据集中实现了高达2%的准确率提升。

Jun, 2024