基于不确定性的视觉问答：估计图像与知识库间的语义不一致性

Jul, 2022

基于不确定性的视觉问答：估计图像与知识库间的语义不一致性

Uncertainty-based Visual Question Answering: Estimating Semantic Inconsistency between Image and Knowledge Base

Jinyeong Chae, Jihie Kim

TL;DR本研究提出了一种基于语义不一致度量的新型外部知识同化方法，应用到知识型视觉问答中，旨在减少添加无关信息对问答的干扰并融合含蓄和显式知识，评估结果表明该方法具有最先进性能。

Abstract

knowledge-based visual question answering (KVQA) task aims to answer questions that require additional external knowledge as well as an understanding of images and questions. Recent studies on KVQA inject an

knowledge-based visual question answering external knowledge multi-modal form semantic inconsistency measure ok-vqa dataset

发现论文，激发创造

基于跨模态知识推理的基于知识的视觉问答

本文提出了基于多个知识图谱的知识的视觉问答模型，通过串联的 GRUC 模块，对不同模态的图像信息进行并行推理，最终利用图神经网络获得全局最优解，在三个流行基准数据集上获得新的 state-of-the-art 表现结果。

Aug, 2020

OK-VQA：需要外部知识的视觉问答基准

本文提出了名为 OK-VQA 的基于知识的视觉问答基准，要求使用外部知识资源来回答问题，该任务是多样的、困难的和大型的，与以前的基于知识的 VQA 数据集相比具有更高的难度。

May, 2019

精确赋能，过度分散：动态注入语言模型中的视觉问答知识

通过提供来自知识图谱中提取的相关外部知识，我们通过增强问题并实现可变数量的三元组，为知识增强的视觉问答模型带来了平均 4.75％的准确匹配得分提升，并展示了其在推理能力和泛化能力方面的优势。

Jun, 2024

基于知识的 VQA 的知识浓缩和推理

我们提出两个协同模型：知识浓缩模型和知识推理模型。这两种浓缩的知识被无缝地集成到我们的知识推理模型中，巧妙地导航综合信息以得出最终答案。与以前的方法相比，我们的方法在基于知识的 VQA 数据集上（OK-VQA 的 65.1％，A-OKVQA 的 60.1％）取得了最先进的性能，而不依赖 GPT-3（175B）生成的知识。

Mar, 2024

从已知到未知：迁移知识以回答关于新视觉和语义概念的问题

为了应对在 Open-world 情境下出现的语言和视觉上未知概念对 Visual Question Answering 系统的影响，我们提出了一种基于示例的方法，用于从先前的已知概念中转移学习，以回答有关未知概念的问题，此外，我们提出了一种高效的匹配方案，以有效处理大规模基准数据集中的高维示例信息。

Nov, 2018

开放域问答系统能回答视觉知识问题吗？

本研究提出了一种基于文本的视觉问题解答系统，此系统无需额外外部知识，仅利用 BERT 模型进行重新提问，表现优异，且仅使用训练数据的 10％。

Feb, 2022

选择、替换、搜索：一种新的用于知识增强视觉问答的基准测试

该研究针对现有数据集中存在的限制，建立了一个新的基于结构模式的跨模态问答数据集和挑战，同时提出了一个基于神经网络的透明的 OKVQA 系统 S3，该系统在新数据集上实现了比较好的表现。

Mar, 2021

基于开放集和知识的视觉问答与推理路径

知识引导的视觉问题回答（KB-VQA）通过外部知识库的辅助，为图像和相关的文本问题提供正确答案。本文提出了一种名为 Graph pATH rankER（GATHER）的新型 KB-VQA 框架，通过构建图、修剪和路径级别排序，不仅能够准确检索答案，还提供解释推理过程的路径。通过在真实世界问题上的广泛实验，证明了该框架不仅能够在整个知识库上进行开放式问题回答，还能提供明确的推理路径。

Oct, 2023

思考与观察的结合用于基于外部知识的视觉问答

本文提出一种包含多模态编码器、文本编码器和答案解码器的新型框架，将跨模态空间约束到自然语言空间中，使得视觉特征直接保留在其中，并且从自然语言空间中获得更多的类型知识，实验证明其在多数情况下表现优异。

May, 2023

基于知识的问答弱监督视觉 - 检索 - 阅读模型

本篇研究提出了一种基于知识库检索的视觉问答模型，包括视觉知识检索模型和基于分类和提取两种方式的视觉问题回答模型，并探讨了利用文本和图像进行知识检索的多种方法。实验表明，良好的知识检索模型可以显著提高在 OK-VQA 挑战赛上的视觉问题回答模型表现。

Sep, 2021