视觉问答（VQA）的视觉稳健性基准测试

Jul, 2024

视觉问答（VQA）的视觉稳健性基准测试

Visual Robustness Benchmark for Visual Question Answering (VQA)

Md Farhan Ishmam, Ishmam Tashdeed, Talukder Asir Saadat, Md Hamjajul Ashmafee, Dr. Abu Raihan Mostofa Kamal...

TL;DR可以在现实世界中部署的视觉问答（VQA）系统能够表现得和预期一样好吗？还是它们容易受到现实中的干扰效果（例如图像模糊）的影响，这在敏感应用（如医学 VQA）中可能会有不利影响？我们提出了第一个包含 213,000 个扩充图像的大规模基准测试，挑战多个 VQA 模型的视觉健壮性，并评估现实视觉扰动的强度。此外，我们设计了多个健壮性评估指标，可以聚合为一个统一指标，并适应各种用例。我们的实验揭示了模型大小、性能和对视觉扰动的健壮性之间的关系。我们的基准测试突显了在模型开发中需要平衡考虑模型性能和健壮性的必要性。

Abstract

Can visual question answering (VQA) systems perform just as well when deployed in the real world? Or are they susceptible to realistic corruption effects e.g. image blur, which can be detrimental in sensitive applications, such as medical VQA? While linguistic or textual robustness has

visual question answering real-world deployment visual robustness benchmark model development

发现论文，激发创造

基础问题对视觉问答模型的鲁棒性分析

本文提出了一种利用 LASSO 优化和 Basic Question Dataset (BQD) 以及新的 robustness measure Rscore 来分析 VQA models 鲁棒性的方法，同时希望 BQD 可以成为评估 VQA models 鲁棒性的基准。

Sep, 2017

强健的视觉问答：数据集，方法和未来挑战

视觉问答研究需要系统能够根据图像和自然语言问题提供准确的自然语言答案。然而，先前的通用 VQA 方法普遍存在记忆训练数据中的偏见而不是学习正确行为（如在预测答案之前进行图像建立联系）。因此，这些方法通常在分布内获得高性能但在分布外获得低性能。最近几年，已经提出了各种数据集和去偏见方法来评估和增强 VQA 的稳健性。本文提供了关于这一新兴领域的首个综述，重点讨论视觉问答中的这些问题。具体来说，首先概述了数据集的发展过程，从分布内和分布外的角度进行了分析。然后，研究了这些数据集使用的评估指标。第三，提出了一种类型学，介绍了现有去偏见方法的发展过程、相似之处与差异、稳健性比较和技术特征。此外，分析和讨论了 VQA 中代表性视觉与语言预训练模型的稳健性。最后，通过对现有文献的彻底审查和实验分析，从各个角度探讨了未来研究的关键领域。

Jul, 2023

视觉问答模型鲁棒性分析的新框架

提出基于语言部分的弹性框架，使用语义相关的基本问题作为可控噪声，评估 VQA 模型的鲁棒性，并提出新的鲁棒性度量标准 R_score 和两个大规模的基础问题数据集（BQDs），以规范 VQA 模型的鲁棒性分析。

Nov, 2017

走向因果 VQA：通过不变量和协变语义编辑揭示和减少虚假相关

本文讨论了一种新的方法，可以分析和衡量 Visual Question Answering 模型的稳健性，同时提出了使模型更具鲁棒性的方法，包括自动化的语义图像操作，和测试模型预测的一致性，生成合成数据来解决这些问题，实验结果表明，通过我们编辑的数据，模型的不一致预测显著减少，对于各种有挑战性的计数问题，我们对三种不同类型的最先进的 VQA 模型进行了分析，最终结果同样能够很好地应用于实际误差案例中，从而实现整体性能的提高。

Dec, 2019

重访视觉问答基线模型

本文提出了一种基于二元分类的简单替代模型来解决视觉问答中的一些问题，并通过在 Visual7W Telling 和 VQA Real Multiple Choice 任务上的实验表明该模型的简单版本同样具有竞争力，同时，作者发现现有的视觉问答系统性能的瓶颈可能在于其对问题及答案中基础概念的不足认知，其表现相对于充分利用数据集偏见的系统并没有显著提升。

Jun, 2016

视觉问答算法分析

本文分析了现有的视觉问答（VQA）算法，并使用一个新数据集进行了评估，提出了新的评估方案来补偿过度展示的问题类型，并研究了不同算法的优缺点和注意力机制的作用。

Mar, 2017

视觉问答

本文提出自由和开放的视觉问答（VQA）任务，旨在通过自然语言问题回答图片问题，涉及到图片理解、多种语言的回答以及数据集和评价方法。

May, 2015

通向万能视觉问答模型之路：回答它们的全部问题！

该论文研究了视觉问答算法，发现现有算法在自然图像理解和推理两个领域上不能很好地综合运用。作者提出了一种新的 VQA 算法，能够在这两个领域上达到或超越现有算法的水平。

Mar, 2019

逆向视觉问答：一个新的基准和 VQA 诊断工具

本篇文章提出了 iVQA 问题，利用变分模型来生成多样化、语法正确、与答案相关性较强的问题，并将其作为一种新型的视觉 - 语言理解基准测试。同时，还提出了使用强化学习框架来诊断现有 VQA 模型，揭示其内在缺陷的方法。

Mar, 2018

人类对抗视觉问答

通过 Adversarial VQA 测试，发现基于现有的 Visual Question Answering 模型的表现还有很大的提升空间，提出了未来研究方向，并希望 Adversarial VQA 测试能帮助推动 VQA 领域的进步和发展。

Jun, 2021