正向批判：创造更好的视觉问答数据集所学到的经验教训

ACLApr, 2017

正向批判：创造更好的视觉问答数据集所学到的经验教训

Being Negative but Constructively: Lessons Learnt from Creating Better Visual Question Answering Datasets

Wei-Lun Chao, Hexiang Hu, Fei Sha

TL;DR本研究通过分析现有数据集中模型和人类的实验结果，研究了视觉问答的数据集设计问题，提出了自动解决设计缺陷的方法，并对两个流行的视觉问答数据集进行了修补，同时创建了一个视觉基因组项目的新视觉问答数据集，这是当前任务的最大数据集之一，经测试其改进的设计在学习模型中能更好发挥作用。

Abstract

visual question answering (Visual QA) has attracted a lot of attention lately, seen essentially as a form of (visual) Turing test that artificial intelligence should strive to achieve. In this paper, we study a crucial component of this task: how can we design good →

visual question answering datasets learner decoy answers visual genome

发现论文，激发创造

强健的视觉问答：数据集，方法和未来挑战

视觉问答研究需要系统能够根据图像和自然语言问题提供准确的自然语言答案。然而，先前的通用 VQA 方法普遍存在记忆训练数据中的偏见而不是学习正确行为（如在预测答案之前进行图像建立联系）。因此，这些方法通常在分布内获得高性能但在分布外获得低性能。最近几年，已经提出了各种数据集和去偏见方法来评估和增强 VQA 的稳健性。本文提供了关于这一新兴领域的首个综述，重点讨论视觉问答中的这些问题。具体来说，首先概述了数据集的发展过程，从分布内和分布外的角度进行了分析。然后，研究了这些数据集使用的评估指标。第三，提出了一种类型学，介绍了现有去偏见方法的发展过程、相似之处与差异、稳健性比较和技术特征。此外，分析和讨论了 VQA 中代表性视觉与语言预训练模型的稳健性。最后，通过对现有文献的彻底审查和实验分析，从各个角度探讨了未来研究的关键领域。

Jul, 2023

无法回答的视觉问答

本研究旨在构建一个值得信赖的 AI 系统，通过为 Visual Question Answering（VQA）模型教授弃权无法回答问题的能力。研究通过提供一个名为 UNK-VQA 的全面数据集来填补这一研究空白，该数据集特别设计用于解决无法回答的问题。同时，通过对图像或问题进行有意的扰动，充分评估了多模式大型模型的零或少样本性能，并提出了解决这些无法回答问题的简单方法。这一数据集将为提升 VQA 模型的弃权能力提供一个有价值的基准，从而增加 AI 系统的可信度。

Oct, 2023

视觉问答调查：数据集与技术

该文综述了近年来关于视觉问答的各种数据集和模型，分别从数据集和模型两个方面进行了比较和总结，并提出了未来研究的方向。

May, 2017

视觉问答：方法与数据集综述

本文针对视觉问答任务进行综述，比较传统的视觉元素和常识知识融合的方法。并对数据集进行了评估，结合 Visual Genome 数据集中的图像结构注释研究了不同复杂度的问答对。最后讨论了未来发展方向，重点关注结构化知识库和自然语言处理模型的连接。

Jul, 2016

视觉问答：数据集、算法和未来挑战

本文回顾了近年来计算机视觉和自然语言处理领域关于视觉问答（VQA）的研究，包括问题定义、数据集、算法和评估指标，并深入探讨了当前数据集在训练和评估 VQA 算法方面的局限性，全面回顾了现有的 VQA 算法，最后讨论了 VQA 和图像理解研究的可能未来方向。

Oct, 2016

通向万能视觉问答模型之路：回答它们的全部问题！

该论文研究了视觉问答算法，发现现有算法在自然图像理解和推理两个领域上不能很好地综合运用。作者提出了一种新的 VQA 算法，能够在这两个领域上达到或超越现有算法的水平。

Mar, 2019

视觉问答

本文提出自由和开放的视觉问答（VQA）任务，旨在通过自然语言问题回答图片问题，涉及到图片理解、多种语言的回答以及数据集和评价方法。

May, 2015

使用深度学习的视觉问答：调查和性能分析

本篇综述介绍了视觉问答（VQA）任务，包括基于自然语言描述的图像识别以及机器学习模型的研究，主要探讨了近期在该领域中公布的数据集、新的深度学习模型以及基于 VQA 模型的一些应用研究和挑战。

Aug, 2019

开放式视觉问题回答（VQA）任务开发和评估中的瓶颈突破：“你对并不代表我错

提出了基于 Alternative Answer Sets (AAS) 的语义度量方法，通过修改现有的 VQA 算法实现多个有效答案，提高了视觉理解和组合问题回答 (GQA) 数据集的表现。

Mar, 2021

重访视觉问答基线模型

本文提出了一种基于二元分类的简单替代模型来解决视觉问答中的一些问题，并通过在 Visual7W Telling 和 VQA Real Multiple Choice 任务上的实验表明该模型的简单版本同样具有竞争力，同时，作者发现现有的视觉问答系统性能的瓶颈可能在于其对问题及答案中基础概念的不足认知，其表现相对于充分利用数据集偏见的系统并没有显著提升。

Jun, 2016