不要仅仅猜测；观察并回答：克服视觉问答的先验知识

Dec, 2017

不要仅仅猜测；观察并回答：克服视觉问答的先验知识

Don't Just Assume; Look and Answer: Overcoming Priors for Visual Question Answering

Aishwarya Agrawal, Dhruv Batra, Devi Parikh, Aniruddha Kembhavi

TL;DR本文提出了一个新的 VQA 模型，其中通过引入不同的先验分布来防止模型仅仅依赖训练数据中的先验信息。该模型是 GVQA，与现有 VQA 模型相比，它具有更好的泛化性能和可解释性能。

Abstract

A number of studies have found that today's visual question answering (vqa) models are heavily driven by superficial correlations in the training data and lack sufficient →

发现论文，激发创造

重访视觉问答基线模型

本文提出了一种基于二元分类的简单替代模型来解决视觉问答中的一些问题，并通过在Visual7W Telling和VQA Real Multiple Choice任务上的实验表明该模型的简单版本同样具有竞争力，同时，作者发现现有的视觉问答系统性能的瓶颈可能在于其对问题及答案中基础概念的不足认知，其表现相对于充分利用数据集偏见的系统并没有显著提升。

Jun, 2016

视觉问答: 方法与数据集综述

本文针对视觉问答任务进行综述，比较传统的视觉元素和常识知识融合的方法。并对数据集进行了评估，结合Visual Genome数据集中的图像结构注释研究了不同复杂度的问答对。最后讨论了未来发展方向，重点关注结构化知识库和自然语言处理模型的连接。

Jul, 2016

在视觉问答中提升图像理解的作用：让 VQA 中的 V 更有意义

该研究通过收集相关的图像，用于构建一个平衡的数据集（VQA v2.0），并在此基础上比较现有的 VQA 模型的表现，发现这些模型都受到了语言先验的影响。此外，该研究还提出了一种可解释性模型，它不仅可以回答问题，而且还可以通过提供一个相似但不同的图像来提高用户对其信任度。

Dec, 2016

视觉问答算法分析

本文分析了现有的视觉问答（VQA）算法，并使用一个新数据集进行了评估，提出了新的评估方案来补偿过度展示的问题类型，并研究了不同算法的优缺点和注意力机制的作用。

Mar, 2017

视觉问答技巧：2017年挑战赛收获

本文介绍了一个用于视觉问答（VQA）的最先进模型，这个模型在2017年的VQA挑战中获得了第一名。通过对超过3,000个GPU小时的架构和超参数的深入探索，我们发现了许多用于提高性能的Tips and Tricks。我们详细地分析了它们的影响以协助其他人进行适当的选择。

Aug, 2017

逆向视觉问答: 一个新的基准和 VQA 诊断工具

本篇文章提出了iVQA问题，利用变分模型来生成多样化、语法正确、与答案相关性较强的问题，并将其作为一种新型的视觉-语言理解基准测试。同时，还提出了使用强化学习框架来诊断现有VQA模型，揭示其内在缺陷的方法。

Mar, 2018

使用深度学习的视觉问答: 调查和性能分析

本篇综述介绍了视觉问答（VQA）任务，包括基于自然语言描述的图像识别以及机器学习模型的研究，主要探讨了近期在该领域中公布的数据集、新的深度学习模型以及基于 VQA 模型的一些应用研究和挑战。

Aug, 2019

基于VQA的视觉基础方法的负面案例分析

为解决当前 VQA 方法依赖于数据集偏见和统计相关性的问题，提出了利用视觉提示进行VQA模型性能优化的方法，但实现的改进并不是由于视觉提示的影响，而是正则化效应，为此提出了一种不需要外部数据注释的简单正则化方案。

Apr, 2020

发掘未知的已知：将数据集中的隐式知识转化为视觉问答的显式训练样例

本文提出了一种基于数据增强的方法 SimpleAug，在不增加人工标注数量的情况下，将数据集中隐含的知识显式化，以此加强针对多模态信息的视觉问答模型，并在两个基准数据集上取得了不错的表现。

Sep, 2021

从图像到语言：对视觉问答（VQA）方法、挑战和机遇的关键分析

通过调查Visual Question Answering（视觉问题回答）领域的复杂性，本研究提供了对VQA数据集和方法的详细分类，展示了该领域的最新趋势、挑战和改进方向，并将VQA推广到多模态问答，探索与VQA相关的任务，并提出了一系列未来研究的开放性问题。

Nov, 2023