针对 VQA 的问题条件反事实图像生成

CVPRNov, 2019

针对 VQA 的问题条件反事实图像生成

Question-Conditioned Counterfactual Image Generation for VQA

Jingjing Pan, Yash Goyal, Stefan Lee

TL;DR通过学习生成对抗性图片对视觉问答模型进行解释，从而使得人们可以理解其内部机制。

Abstract

While visual question answering (VQA) models continue to push the state-of-the-art forward, they largely remain black-boxes - failing to provide insight into how or why an answer is generated. In this ongoing wor

visual question answering counterfactual images vqa model black-boxes understanding

发现论文，激发创造

基于知识的反事实查询在视觉问答中的应用

本文通过利用结构化知识库进行确定性、最优和可控的词级替换，以探究 VQA 模型行为的解释和鲁棒性，并从反事实的回答中提取局部和全局解释，发现可能的偏见和影响模型的性能的预期和意外模式，揭示了模型决策过程中的潜在偏见。

Mar, 2023

为强健视觉问答生成反事实样本

本研究提出一种针对视觉问答（VQA）模型的计数样本合成（CSS）训练方案，该方案通过掩盖图像中的关键对象或问题中的关键词并赋予不同的答案来生成大量反事实训练样本，从而提高模型的视觉可解释性和问题敏感性，进而提高模型性能。在模型 LMH 的基础上，我们在 VQA-CP v2 上取得了 58.95％的最高记录，增益为 6.5％。

Mar, 2020

在视觉问答中识别反例

该研究引入了一个新的视觉问答任务，即识别对原问题产生不同回答的图像，并通过这一任务来评估现有的 VQA 模型。尽管作者的模型在这一任务上表现出色，但研究结果表明，现有的最先进 VQA 模型所学习的多模态表示对于这一任务的表现并没有显著贡献，这表明在 VQA 基准测试上表现良好并不意味着具备更广泛的视觉语义推理能力。

Jun, 2018

自监督反事实度量学习用于去偏视觉问答

我们提出了一种自我监督的反事实度量学习方法来应对 VQA 中的语言偏见问题，该方法可以自适应地选择与问题相关的视觉特征来回答问题，从而减少与问题不相关的视觉特征对推断答案的负面影响，实验证明了我们方法对 VQA-CP 数据集具有提升效果。

Apr, 2023

针对强鲁棒性视觉问答的反事实样本生成与训练

介绍了一个新的模型 - 不可知模型 Counterfactual Samples Synthesizing and Training（CSST）模型，可以消除 VQA 模型的语言偏见，并使模型变得更加视觉可解释和对语言变化更敏感，并在所有 OOD 基准测试上取得了创纪录的表现。

Oct, 2021

逆向视觉问答：一个新的基准和 VQA 诊断工具

本篇文章提出了 iVQA 问题，利用变分模型来生成多样化、语法正确、与答案相关性较强的问题，并将其作为一种新型的视觉 - 语言理解基准测试。同时，还提出了使用强化学习框架来诊断现有 VQA 模型，揭示其内在缺陷的方法。

Mar, 2018

iVQA: 反向视觉问答

本文提出了逆向视觉问答（iVQA）问题，并探讨其作为视觉语言理解基准的适用性。我们提出了一种 iVQA 模型，可以逐渐调整其注意力焦点，以便更好地理解给定的图像。实验结果表明，我们的模型可以生成多样性、语法正确且内容相关的问题，与给定的答案相匹配。

Oct, 2017

检索引导的问答反事实生成

本研究旨在探索如何创建关于领域知识、语义多样性和可回答性等方面的反事实数据来改善深度学习模型的鲁棒性，其中使用的技术包括数据增强，以及 “Retrieve-Generate-Filter” 模型。实验表明，使用该技术能够有效提高模型对于本地扰动的鲁棒性和在阅读理解和开放领域问答中的性能。

Oct, 2021

反事实视觉解释

本文提出了一种生成反事实视觉解释的方法，用于多个图像分类数据集，结果表明该方法具有可解释性和区分性；同时，机器教学实验表明在鸟类分类任务中，提供反事实解释的人更容易区分鸟类物种。

Apr, 2019

反事实型视觉问答：以因果关系审视语言偏见

本文提出了一种新的因果推断框架来缓解视觉问答模型中的语言偏见，可以从整体上减少语言上对回答结果的直接影响，实验结果表明，该框架可以适用于各种 VQA 问答模型，在均衡的 VQA v2 数据集上表现稳定，同时在语言相关的 VQA-CP 数据集上达到有竞争力的表现。

Jun, 2020