视觉问答

May, 2015

VQA: Visual Question Answering

Stanislaw Antol, Aishwarya Agrawal, Jiasen Lu, Margaret Mitchell, Dhruv Batra...

TL;DR本文提出自由和开放的视觉问答（VQA）任务，旨在通过自然语言问题回答图片问题，涉及到图片理解、多种语言的回答以及数据集和评价方法。

Abstract

We propose the task of free-form and open-ended visual question answering (VQA). Given an image and a natural language question about the image, the task is to provide an accurate natural language answer. Mirroring many real-world scenarios, such as helping the visually impaired, both

发现论文，激发创造

视觉问答: 方法与数据集综述

本文针对视觉问答任务进行综述，比较传统的视觉元素和常识知识融合的方法。并对数据集进行了评估，结合Visual Genome数据集中的图像结构注释研究了不同复杂度的问答对。最后讨论了未来发展方向，重点关注结构化知识库和自然语言处理模型的连接。

Jul, 2016

猫的颜色是灰色的：100万个全句视觉问答（FSVQA）

本论文提出了Full-Sentence Visual Question Answering (FSVQA)，通过自然语言处理技术，为MS COCO数据集中的图像提供了近1百万个问答对。其主要关注点为视觉与语言之间的互动和研究自然语言生成问题中的复杂性和语义信息。

Sep, 2016

视觉问答：数据集、算法和未来挑战

本文回顾了近年来计算机视觉和自然语言处理领域关于视觉问答（VQA）的研究，包括问题定义、数据集、算法和评估指标，并深入探讨了当前数据集在训练和评估VQA算法方面的局限性，全面回顾了现有的VQA算法，最后讨论了VQA和图像理解研究的可能未来方向。

Oct, 2016

在视觉问答中提升图像理解的作用：让 VQA 中的 V 更有意义

该研究通过收集相关的图像，用于构建一个平衡的数据集（VQA v2.0），并在此基础上比较现有的 VQA 模型的表现，发现这些模型都受到了语言先验的影响。此外，该研究还提出了一种可解释性模型，它不仅可以回答问题，而且还可以通过提供一个相似但不同的图像来提高用户对其信任度。

Dec, 2016

视觉问答算法分析

本文分析了现有的视觉问答（VQA）算法，并使用一个新数据集进行了评估，提出了新的评估方案来补偿过度展示的问题类型，并研究了不同算法的优缺点和注意力机制的作用。

Mar, 2017

展示、询问、关注和回答：视觉问答的强大基线

本文介绍了一种新的视觉问答任务的基线模型，它可以根据图像的内容和自然语言的问题准确地产生答案，并取得了在不平衡和平衡的VQA基准测试中的最新成果。

Apr, 2017

视觉问答最近进展综述

该论文综述了不同方法来解决视觉问答的问题，特别是描述了各种算法提取图像特征和文本特征的方法，并讨论了评估VQA模型的实验，并报告了它们在各种数据集上的表现。

Sep, 2017

面向能够阅读的VQA模型

我们研究了盲人用户在看不到图片的情况下经常关注的图像内容，即图片中的文本，并介绍了一种名为LoRRA的新模型用于解决这个问题，同时提出了一个名为TextVQA的数据集来评估和改进模型表现。

Apr, 2019

使用深度学习的视觉问答: 调查和性能分析

本篇综述介绍了视觉问答（VQA）任务，包括基于自然语言描述的图像识别以及机器学习模型的研究，主要探讨了近期在该领域中公布的数据集、新的深度学习模型以及基于 VQA 模型的一些应用研究和挑战。

Aug, 2019

从图像到语言：对视觉问答（VQA）方法、挑战和机遇的关键分析

通过调查Visual Question Answering（视觉问题回答）领域的复杂性，本研究提供了对VQA数据集和方法的详细分类，展示了该领域的最新趋势、挑战和改进方向，并将VQA推广到多模态问答，探索与VQA相关的任务，并提出了一系列未来研究的开放性问题。

Nov, 2023