基于不确定性的视觉问答:估计图像与知识库间的语义不一致性
本文提出了基于多个知识图谱的知识的视觉问答模型,通过串联的 GRUC 模块,对不同模态的图像信息进行并行推理,最终利用图神经网络获得全局最优解,在三个流行基准数据集上获得新的 state-of-the-art 表现结果。
Aug, 2020
本文提出了名为 OK-VQA 的基于知识的视觉问答基准,要求使用外部知识资源来回答问题,该任务是多样的、困难的和大型的,与以前的基于知识的 VQA 数据集相比具有更高的难度。
May, 2019
通过提供来自知识图谱中提取的相关外部知识,我们通过增强问题并实现可变数量的三元组,为知识增强的视觉问答模型带来了平均 4.75%的准确匹配得分提升,并展示了其在推理能力和泛化能力方面的优势。
Jun, 2024
我们提出两个协同模型:知识浓缩模型和知识推理模型。这两种浓缩的知识被无缝地集成到我们的知识推理模型中,巧妙地导航综合信息以得出最终答案。与以前的方法相比,我们的方法在基于知识的 VQA 数据集上(OK-VQA 的 65.1%,A-OKVQA 的 60.1%)取得了最先进的性能,而不依赖 GPT-3(175B)生成的知识。
Mar, 2024
为了应对在 Open-world 情境下出现的语言和视觉上未知概念对 Visual Question Answering 系统的影响,我们提出了一种基于示例的方法,用于从先前的已知概念中转移学习,以回答有关未知概念的问题,此外,我们提出了一种高效的匹配方案,以有效处理大规模基准数据集中的高维示例信息。
Nov, 2018
该研究针对现有数据集中存在的限制,建立了一个新的基于结构模式的跨模态问答数据集和挑战,同时提出了一个基于神经网络的透明的 OKVQA 系统 S3,该系统在新数据集上实现了比较好的表现。
Mar, 2021
知识引导的视觉问题回答(KB-VQA)通过外部知识库的辅助,为图像和相关的文本问题提供正确答案。本文提出了一种名为 Graph pATH rankER(GATHER)的新型 KB-VQA 框架,通过构建图、修剪和路径级别排序,不仅能够准确检索答案,还提供解释推理过程的路径。通过在真实世界问题上的广泛实验,证明了该框架不仅能够在整个知识库上进行开放式问题回答,还能提供明确的推理路径。
Oct, 2023
本文提出一种包含多模态编码器、文本编码器和答案解码器的新型框架,将跨模态空间约束到自然语言空间中,使得视觉特征直接保留在其中,并且从自然语言空间中获得更多的类型知识,实验证明其在多数情况下表现优异。
May, 2023
本篇研究提出了一种基于知识库检索的视觉问答模型,包括视觉知识检索模型和基于分类和提取两种方式的视觉问题回答模型,并探讨了利用文本和图像进行知识检索的多种方法。实验表明,良好的知识检索模型可以显著提高在 OK-VQA 挑战赛上的视觉问题回答模型表现。
Sep, 2021