OK-VQA：需要外部知识的视觉问答基准

May, 2019

OK-VQA：需要外部知识的视觉问答基准

OK-VQA: A Visual Question Answering Benchmark Requiring External Knowledge

Kenneth Marino, Mohammad Rastegari, Ali Farhadi, Roozbeh Mottaghi

TL;DR本文提出了名为OK-VQA的基于知识的视觉问答基准，要求使用外部知识资源来回答问题，该任务是多样的、困难的和大型的，与以前的基于知识的VQA数据集相比具有更高的难度。

Abstract

visual question answering (VQA) in its ideal form lets us study reasoning in the joint space of vision and language and serves as a proxy for the ai task of →

发现论文，激发创造

基于事实的视觉问答系统

介绍了一种需要外部信息支持、对图像进行深层次推理的视觉问答数据集 FVQA，并在该数据集上评估了多种基线模型，提出了一种新的模型能够基于支持事实对图像进行推理。

Jun, 2016

视觉问答: 方法与数据集综述

本文针对视觉问答任务进行综述，比较传统的视觉元素和常识知识融合的方法。并对数据集进行了评估，结合Visual Genome数据集中的图像结构注释研究了不同复杂度的问答对。最后讨论了未来发展方向，重点关注结构化知识库和自然语言处理模型的连接。

Jul, 2016

视觉问答：数据集、算法和未来挑战

本文回顾了近年来计算机视觉和自然语言处理领域关于视觉问答（VQA）的研究，包括问题定义、数据集、算法和评估指标，并深入探讨了当前数据集在训练和评估VQA算法方面的局限性，全面回顾了现有的VQA算法，最后讨论了VQA和图像理解研究的可能未来方向。

Oct, 2016

在视觉问答中提升图像理解的作用：让 VQA 中的 V 更有意义

该研究通过收集相关的图像，用于构建一个平衡的数据集（VQA v2.0），并在此基础上比较现有的 VQA 模型的表现，发现这些模型都受到了语言先验的影响。此外，该研究还提出了一种可解释性模型，它不仅可以回答问题，而且还可以通过提供一个相似但不同的图像来提高用户对其信任度。

Dec, 2016

基于知识路线的视觉问答推理：深度表示嵌入的挑战

提出了一种基于知识路线的视觉问题推理 VQA 模型评估数据集，通过控制程序来选择自然场景图和外部知识库中的三元组，强制进行多步推理，并平衡答案分布，以解决现有的 VQA 模型的浅层相关问题和注释程序不均衡的问题。

Dec, 2020

发掘未知的已知：将数据集中的隐式知识转化为视觉问答的显式训练样例

本文提出了一种基于数据增强的方法 SimpleAug，在不增加人工标注数量的情况下，将数据集中隐含的知识显式化，以此加强针对多模态信息的视觉问答模型，并在两个基准数据集上取得了不错的表现。

Sep, 2021

A-OKVQA: 利用世界知识的视觉问答基准

介绍了 A-OKVQA 数据集，它包含了约 25000 个多样化的问题，需要广泛的常识和世界知识才能回答，相对于现有的基于知识的 VQA 数据集，这些问题通常不能通过简单地查询知识库来回答，而是需要对图像中所描绘的场景进行某种形式的常识推理，该数据集对几种最先进的视觉语言模型进行了基础性能测试。

Jun, 2022

从图像到语言：对视觉问答（VQA）方法、挑战和机遇的关键分析

通过调查Visual Question Answering（视觉问题回答）领域的复杂性，本研究提供了对VQA数据集和方法的详细分类，展示了该领域的最新趋势、挑战和改进方向，并将VQA推广到多模态问答，探索与VQA相关的任务，并提出了一系列未来研究的开放性问题。

Nov, 2023

基于知识的VQA的知识浓缩和推理

我们提出两个协同模型：知识浓缩模型和知识推理模型。这两种浓缩的知识被无缝地集成到我们的知识推理模型中，巧妙地导航综合信息以得出最终答案。与以前的方法相比，我们的方法在基于知识的VQA数据集上（OK-VQA的65.1％，A-OKVQA的60.1％）取得了最先进的性能，而不依赖GPT-3（175B）生成的知识。

Mar, 2024

精确赋能，过度分散：动态注入语言模型中的视觉问答知识

通过提供来自知识图谱中提取的相关外部知识，我们通过增强问题并实现可变数量的三元组，为知识增强的视觉问答模型带来了平均4.75％的准确匹配得分提升，并展示了其在推理能力和泛化能力方面的优势。

Jun, 2024