走向因果 VQA：通过不变量和协变语义编辑揭示和减少虚假相关

Dec, 2019

走向因果 VQA：通过不变量和协变语义编辑揭示和减少虚假相关

Towards Causal VQA: Revealing and Reducing Spurious Correlations by Invariant and Covariant Semantic Editing

Vedika Agarwal, Rakshith Shetty, Mario Fritz

TL;DR本文讨论了一种新的方法，可以分析和衡量 Visual Question Answering 模型的稳健性，同时提出了使模型更具鲁棒性的方法，包括自动化的语义图像操作，和测试模型预测的一致性，生成合成数据来解决这些问题，实验结果表明，通过我们编辑的数据，模型的不一致预测显著减少，对于各种有挑战性的计数问题，我们对三种不同类型的最先进的 VQA 模型进行了分析，最终结果同样能够很好地应用于实际误差案例中，从而实现整体性能的提高。

Abstract

Despite significant success in visual question answering (VQA), VQA models have been shown to be notoriously brittle to linguistic variations in the questions. Due to deficiencies in models and datasets, today's models often rely on correlations rather than predictions that are causal

visual question answering model robustness semantic image manipulation spurious correlations counting questions

发现论文，激发创造

鲁棒视觉问答的循环一致性

该研究提出了一个新的评估协议和与之相关的数据集（VQA-Rephrasings），展示了当前最先进的 VQA 模型对问题中的语言变化是非常脆弱的。作者们提出了一个模型不可知的框架，利用循环一致性来提高 VQA 模型的健壮性，通过训练模型不仅回答问题，而且还生成一个条件于答案的问题，从而预测生成的问题的答案与原问题（标准答案）相同。他们展示了该方法相对于最先进的 VQA 模型在语言变异方面具有显著的健壮性，并优于最先进的方法在标准的 VQA 和视觉问题生成任务中在具有挑战性的 VQA v2.0 数据集上的表现。

Feb, 2019

通过导出问题生成改善 VQA 中的回答一致性

本研究提出了一种方法，通过引入一个名为 ConVQA 的数据集和度量标准，量化衡量视觉问答（VQA）模型的一致性，并建立了一种名为一致性教师模块（CTM）的数据增强模块，该模块可以自动增强源 QA 对的语义相关问题，从而优化 VQA 的一致性。在 ConVQA 数据集上的实验结果表明，我们的方法可以提高现有 VQA 模型的一致性表现。

Sep, 2019

从词汇扰动中学习，以实现一致的视觉问答

本文提出了一种使用模块化网络来改善视觉问答模型鲁棒性的方法，以及提出了一个包含大规模语言资源的低成本基准测试，我们的结果表明，对于 VQA 模型的训练和正则化，控制下的语言扰动是一种有用的但当前未充分利用的工具。

Nov, 2020

基于 VQA 的视觉基础方法的负面案例分析

为解决当前 VQA 方法依赖于数据集偏见和统计相关性的问题，提出了利用视觉提示进行 VQA 模型性能优化的方法，但实现的改进并不是由于视觉提示的影响，而是正则化效应，为此提出了一种不需要外部数据注释的简单正则化方案。

Apr, 2020

视觉问答的强健性解释

该研究提出了一个用于视觉问答（VQA）的生成鲁棒解释的方法，该模型通过提供视觉和文本解释来解释由 VQA 模型获得的答案，使用协作相关模块应对答案与文本解释不相关和视觉解释不正确的问题。在 VQA-X 数据集上的评估中，该算法具有更好的文本和视觉解释支持，对应视觉和文本解释攻击有更强的鲁棒性，且具有高度的相关性。

Jan, 2020

揭示视觉问答中交叉模态偏见：基于可能世界的因果视角 VQA 分析

本文介绍了一种同时减少 VQA 系统中视觉和语言偏差的方法，并推出了一种解释策略，最终在 VQA-CP v2 数据集上取得了比现有方法更好的结果。

May, 2023

基于知识的反事实查询在视觉问答中的应用

本文通过利用结构化知识库进行确定性、最优和可控的词级替换，以探究 VQA 模型行为的解释和鲁棒性，并从反事实的回答中提取局部和全局解释，发现可能的偏见和影响模型的性能的预期和意外模式，揭示了模型决策过程中的潜在偏见。

Mar, 2023

自我批判推理用于稳健的视觉问答

该研究提出了自我批判的训练目标，通过确定人类视觉 / 文本解释或仅来自问题和答案中的重要单词的具有影响力的图像区域，确保正确答案的视觉解释与竞争答案候选者相比更匹配，以解决 Visual Question Answering 系统在训练数据上捕捉表面统计相关性的问题。应用于 VQA-CP 数据集，使用文本解释获得 49.5％，使用自动注释区域获得 48.5％，在 VQA 泛化任务中达到了最新的技术水平。

May, 2019

在视觉问答中识别反例

该研究引入了一个新的视觉问答任务，即识别对原问题产生不同回答的图像，并通过这一任务来评估现有的 VQA 模型。尽管作者的模型在这一任务上表现出色，但研究结果表明，现有的最先进 VQA 模型所学习的多模态表示对于这一任务的表现并没有显著贡献，这表明在 VQA 基准测试上表现良好并不意味着具备更广泛的视觉语义推理能力。

Jun, 2018

基础问题对视觉问答模型的鲁棒性分析

本文提出了一种利用 LASSO 优化和 Basic Question Dataset (BQD) 以及新的 robustness measure Rscore 来分析 VQA models 鲁棒性的方法，同时希望 BQD 可以成为评估 VQA models 鲁棒性的基准。

Sep, 2017