针对强鲁棒性视觉问答的反事实样本生成与训练

CVPROct, 2021

针对强鲁棒性视觉问答的反事实样本生成与训练

Counterfactual Samples Synthesizing and Training for Robust Visual Question Answering

Long Chen, Yuhang Zheng, Yulei Niu, Hanwang Zhang, Jun Xiao

TL;DR介绍了一个新的模型 - 不可知模型 Counterfactual Samples Synthesizing and Training（CSST）模型，可以消除 VQA 模型的语言偏见，并使模型变得更加视觉可解释和对语言变化更敏感，并在所有 OOD 基准测试上取得了创纪录的表现。

Abstract

Today's vqa models still tend to capture superficial linguistic correlations in the training set and fail to generalize to the test set with different QA distributions. To reduce these language biases, recent VQA

vqa models language biases counterfactual samples synthesizing and training visual-explainable question-sensitive

发现论文，激发创造

为强健视觉问答生成反事实样本

本研究提出一种针对视觉问答（VQA）模型的计数样本合成（CSS）训练方案，该方案通过掩盖图像中的关键对象或问题中的关键词并赋予不同的答案来生成大量反事实训练样本，从而提高模型的视觉可解释性和问题敏感性，进而提高模型性能。在模型 LMH 的基础上，我们在 VQA-CP v2 上取得了 58.95％的最高记录，增益为 6.5％。

Mar, 2020

自监督反事实度量学习用于去偏视觉问答

我们提出了一种自我监督的反事实度量学习方法来应对 VQA 中的语言偏见问题，该方法可以自适应地选择与问题相关的视觉特征来回答问题，从而减少与问题不相关的视觉特征对推断答案的负面影响，实验证明了我们方法对 VQA-CP 数据集具有提升效果。

Apr, 2023

基于知识的反事实查询在视觉问答中的应用

本文通过利用结构化知识库进行确定性、最优和可控的词级替换，以探究 VQA 模型行为的解释和鲁棒性，并从反事实的回答中提取局部和全局解释，发现可能的偏见和影响模型的性能的预期和意外模式，揭示了模型决策过程中的潜在偏见。

Mar, 2023

针对 VQA 的问题条件反事实图像生成

通过学习生成对抗性图片对视觉问答模型进行解释，从而使得人们可以理解其内部机制。

Nov, 2019

面向强健的视觉问答：通过对比学习充分利用偏倚样本

提出了一个名为 MMBS 的对比学习方法，通过去除与偏见相关的信息构建正样本进行训练，从而构建更加鲁棒的视觉问答模型并增加其对理性推理的贡献，同时在 VQA-CP v2 OOD 数据集上取得了竞争性的表现以及在 VQA v2 ID 数据集上保持了鲁棒的性能。

Oct, 2022

在视觉问答中识别反例

该研究引入了一个新的视觉问答任务，即识别对原问题产生不同回答的图像，并通过这一任务来评估现有的 VQA 模型。尽管作者的模型在这一任务上表现出色，但研究结果表明，现有的最先进 VQA 模型所学习的多模态表示对于这一任务的表现并没有显著贡献，这表明在 VQA 基准测试上表现良好并不意味着具备更广泛的视觉语义推理能力。

Jun, 2018

多项选择视觉问答及其之外的数据集偏差缓解

通过对视觉语言理解任务中的数据集偏差进行对抗数据合成和样本内反事实训练，提高模型的性能。

Oct, 2023

自我批判推理用于稳健的视觉问答

该研究提出了自我批判的训练目标，通过确定人类视觉 / 文本解释或仅来自问题和答案中的重要单词的具有影响力的图像区域，确保正确答案的视觉解释与竞争答案候选者相比更匹配，以解决 Visual Question Answering 系统在训练数据上捕捉表面统计相关性的问题。应用于 VQA-CP 数据集，使用文本解释获得 49.5％，使用自动注释区域获得 48.5％，在 VQA 泛化任务中达到了最新的技术水平。

May, 2019

SimVQA: 探索模拟环境进行视觉问答

采用合成数据生成技术，利用 3D 仿真平台生成了具备多样性的数据，针对现实世界 VQA 基准测试，量化了合成数据的影响并提出了 F-SWAP 方法，以提高现有真实图像数据集的 VQA 准确性。

Mar, 2022

走向因果 VQA：通过不变量和协变语义编辑揭示和减少虚假相关

本文讨论了一种新的方法，可以分析和衡量 Visual Question Answering 模型的稳健性，同时提出了使模型更具鲁棒性的方法，包括自动化的语义图像操作，和测试模型预测的一致性，生成合成数据来解决这些问题，实验结果表明，通过我们编辑的数据，模型的不一致预测显著减少，对于各种有挑战性的计数问题，我们对三种不同类型的最先进的 VQA 模型进行了分析，最终结果同样能够很好地应用于实际误差案例中，从而实现整体性能的提高。

Dec, 2019