从图像池中挖掘答案：走向基于检索的视觉问答

Jun, 2023

从图像池中挖掘答案：走向基于检索的视觉问答

Answer Mining from a Pool of Images: Towards Retrieval-Based Visual Question Answering

Abhirama Subramanyam Penamakuri, Manish Gupta, Mithun Das Gupta, Anand Mishra

TL;DR本文介绍了一种针对多张图片中远程问答的视觉问答模型，并提出了一个名为 RETVQA 的具有多图和检索需求的新数据集，使用 MI-BART 模型在该数据集上取得了良好的表现。

Abstract

We study visual question answering in a setting where the answer has to be mined from a pool of relevant and irrelevant images given as a context. For such a setting, a model must first retrieve relevant images from the pool and answer the question from these retrieved images. We refer

发现论文，激发创造

视觉问答

本文提出自由和开放的视觉问答（VQA）任务，旨在通过自然语言问题回答图片问题，涉及到图片理解、多种语言的回答以及数据集和评价方法。

May, 2015

基于事实的视觉问答系统

介绍了一种需要外部信息支持、对图像进行深层次推理的视觉问答数据集 FVQA，并在该数据集上评估了多种基线模型，提出了一种新的模型能够基于支持事实对图像进行推理。

Jun, 2016

视觉问答: 方法与数据集综述

本文针对视觉问答任务进行综述，比较传统的视觉元素和常识知识融合的方法。并对数据集进行了评估，结合Visual Genome数据集中的图像结构注释研究了不同复杂度的问答对。最后讨论了未来发展方向，重点关注结构化知识库和自然语言处理模型的连接。

Jul, 2016

在视觉问答中提升图像理解的作用：让 VQA 中的 V 更有意义

该研究通过收集相关的图像，用于构建一个平衡的数据集（VQA v2.0），并在此基础上比较现有的 VQA 模型的表现，发现这些模型都受到了语言先验的影响。此外，该研究还提出了一种可解释性模型，它不仅可以回答问题，而且还可以通过提供一个相似但不同的图像来提高用户对其信任度。

Dec, 2016

视觉问答算法分析

本文分析了现有的视觉问答（VQA）算法，并使用一个新数据集进行了评估，提出了新的评估方案来补偿过度展示的问题类型，并研究了不同算法的优缺点和注意力机制的作用。

Mar, 2017

将视觉问答作为元学习任务

本文提出了一种元学习的方法来解决图像问题回答（VQA）问题，并采用了原型网络和元网络两种技术，通过给定的例子来推理解决给定的问题，与现有技术相比，该方法能够产生具有更高罕见回答的召回率和更好的样本效率，是学习和推理基于视觉和语言的方法的重要一步。

Nov, 2017

使用深度学习的视觉问答: 调查和性能分析

本篇综述介绍了视觉问答（VQA）任务，包括基于自然语言描述的图像识别以及机器学习模型的研究，主要探讨了近期在该领域中公布的数据集、新的深度学习模型以及基于 VQA 模型的一些应用研究和挑战。

Aug, 2019

图像集上的视觉问答

该研究介绍了一种称为ISVQA的任务，即将自然语言问题和一组图片作为输入，并旨在根据图像的内容回答问题。此外，该研究还引入了两个在室内和室外场景中的ISVQA数据集，并分析了它们的各种属性。研究还构建了新的基线模型以探究该领域的新的研究挑战。

Aug, 2020

A-OKVQA: 利用世界知识的视觉问答基准

介绍了 A-OKVQA 数据集，它包含了约 25000 个多样化的问题，需要广泛的常识和世界知识才能回答，相对于现有的基于知识的 VQA 数据集，这些问题通常不能通过简单地查询知识库来回答，而是需要对图像中所描绘的场景进行某种形式的常识推理，该数据集对几种最先进的视觉语言模型进行了基础性能测试。

Jun, 2022

从图像到语言：对视觉问答（VQA）方法、挑战和机遇的关键分析

通过调查Visual Question Answering（视觉问题回答）领域的复杂性，本研究提供了对VQA数据集和方法的详细分类，展示了该领域的最新趋势、挑战和改进方向，并将VQA推广到多模态问答，探索与VQA相关的任务，并提出了一系列未来研究的开放性问题。

Nov, 2023