OK-VQA:需要外部知识的视觉问答基准
介绍了一种需要外部信息支持、对图像进行深层次推理的视觉问答数据集 FVQA,并在该数据集上评估了多种基线模型,提出了一种新的模型能够基于支持事实对图像进行推理。
Jun, 2016
本文针对视觉问答任务进行综述,比较传统的视觉元素和常识知识融合的方法。并对数据集进行了评估,结合Visual Genome数据集中的图像结构注释研究了不同复杂度的问答对。最后讨论了未来发展方向,重点关注结构化知识库和自然语言处理模型的连接。
Jul, 2016
本文回顾了近年来计算机视觉和自然语言处理领域关于视觉问答(VQA)的研究,包括问题定义、数据集、算法和评估指标,并深入探讨了当前数据集在训练和评估VQA算法方面的局限性,全面回顾了现有的VQA算法,最后讨论了VQA和图像理解研究的可能未来方向。
Oct, 2016
该研究通过收集相关的图像,用于构建一个平衡的数据集(VQA v2.0),并在此基础上比较现有的 VQA 模型的表现,发现这些模型都受到了语言先验的影响。此外,该研究还提出了一种可解释性模型,它不仅可以回答问题,而且还可以通过提供一个相似但不同的图像来提高用户对其信任度。
Dec, 2016
提出了一种基于知识路线的视觉问题推理 VQA 模型评估数据集,通过控制程序来选择自然场景图和外部知识库中的三元组,强制进行多步推理,并平衡答案分布,以解决现有的 VQA 模型的浅层相关问题和注释程序不均衡的问题。
Dec, 2020
本文提出了一种基于数据增强的方法 SimpleAug,在不增加人工标注数量的情况下,将数据集中隐含的知识显式化,以此加强针对多模态信息的视觉问答模型,并在两个基准数据集上取得了不错的表现。
Sep, 2021
介绍了 A-OKVQA 数据集,它包含了约 25000 个多样化的问题,需要广泛的常识和世界知识才能回答,相对于现有的基于知识的 VQA 数据集,这些问题通常不能通过简单地查询知识库来回答,而是需要对图像中所描绘的场景进行某种形式的常识推理,该数据集对几种最先进的视觉语言模型进行了基础性能测试。
Jun, 2022
通过调查Visual Question Answering(视觉问题回答)领域的复杂性,本研究提供了对VQA数据集和方法的详细分类,展示了该领域的最新趋势、挑战和改进方向,并将VQA推广到多模态问答,探索与VQA相关的任务,并提出了一系列未来研究的开放性问题。
Nov, 2023
我们提出两个协同模型:知识浓缩模型和知识推理模型。这两种浓缩的知识被无缝地集成到我们的知识推理模型中,巧妙地导航综合信息以得出最终答案。与以前的方法相比,我们的方法在基于知识的VQA数据集上(OK-VQA的65.1%,A-OKVQA的60.1%)取得了最先进的性能,而不依赖GPT-3(175B)生成的知识。
Mar, 2024
通过提供来自知识图谱中提取的相关外部知识,我们通过增强问题并实现可变数量的三元组,为知识增强的视觉问答模型带来了平均4.75%的准确匹配得分提升,并展示了其在推理能力和泛化能力方面的优势。
Jun, 2024