揭示视觉问答中交叉模态偏见：基于可能世界的因果视角 VQA 分析

May, 2023

揭示视觉问答中交叉模态偏见：基于可能世界的因果视角 VQA 分析

Unveiling Cross Modality Bias in Visual Question Answering: A Causal View with Possible Worlds VQA

PDF

Ali Vosoughi, Shijian Deng, Songyang Zhang, Yapeng Tian, Chenliang Xu...

TL;DR本文介绍了一种同时减少 VQA 系统中视觉和语言偏差的方法，并推出了一种解释策略，最终在 VQA-CP v2 数据集上取得了比现有方法更好的结果。

Abstract

To increase the generalization capability of vqa systems, many recent studies have tried to de-bias spurious →

vqa generalization de-bias language vision

发现论文，激发创造

反事实型视觉问答：以因果关系审视语言偏见

本文提出了一种新的因果推断框架来缓解视觉问答模型中的语言偏见，可以从整体上减少语言上对回答结果的直接影响，实验结果表明，该框架可以适用于各种 VQA 问答模型，在均衡的 VQA v2 数据集上表现稳定，同时在语言相关的 VQA-CP 数据集上达到有竞争力的表现。

Jun, 2020

视觉问答中语言模态的实证研究

本文通过一系列实验，探究语言模态对视觉问答模型在超出其学习领域的数据上的影响，提出简单的方法来减少模型对语言先验的依赖并在 out-of-distribution 测试集上提高性能。

May, 2023

透过两层认知的因果推理，提高视觉问答中的泛化能力

利用认知路径的 VQA（CopVQA）通过强调因果推理因素来改善多模态预测，从而支持 VQA 中的概括推理。

Oct, 2023

基于知识的反事实查询在视觉问答中的应用

本文通过利用结构化知识库进行确定性、最优和可控的词级替换，以探究 VQA 模型行为的解释和鲁棒性，并从反事实的回答中提取局部和全局解释，发现可能的偏见和影响模型的性能的预期和意外模式，揭示了模型决策过程中的潜在偏见。

Mar, 2023

量化和减轻多模大型语言模型中的单模偏差：因果视角

近期，大型语言模型 (LLM) 的进展促进了多模态 LLM (MLLM) 的发展。虽然 MLLM 具有令人印象深刻的能力，但往往过于依赖单模态偏见（例如，语言偏见和视觉偏见），导致在复杂的多模态任务中回答错误。为了研究这个问题，我们提出了一个因果框架来解释视觉问答 (VQA) 问题中的偏见。在我们的框架中，我们设计了一个因果图来阐明 MLLMs 在 VQA 问题上的预测，并通过深入的因果分析评估偏见的因果效应。受到因果图的启发，我们引入了一个名为 MORE 的新数据集，包含了 12,000 个 VQA 实例。该数据集旨在挑战 MLLMs 的能力，需要进行多跳推理和克服单模态偏见。此外，我们提出了两种策略来减轻单模态偏见和增强 MLLMs 的推理能力，包括针对有限访问 MLLMs 的 “分解 - 验证 - 回答” (DeVA) 框架以及通过微调改进开源 MLLMs。广泛的定量和定性实验为未来的研究提供了宝贵的见解。

Mar, 2024

超越基于问题偏见：对多模态快捷学习在视觉问答中的评估

本文介绍了一个用于诊断视觉问答（VQA）模型中快速学习情况的评估方法，并提出了考虑问题和图片的多模态快捷方式问题。通过挖掘诸如词语和视觉元素的共现等规律等方法，首先在流行的 VQA v2 训练集中确定了可能的快速方式，然后引入基于我们的 CounterExamples 子集的 VQA-CounterExamples（VQA-CE）评估协议进行了大规模研究，发现即使是最先进的模型也难以处理这个复杂的问题。

Apr, 2021

利用语言偏见学习内容和上下文的视觉问答

通过建立基于内容和上下文的 CCB 模型，可以减少语言偏差，同时提高 Visual Question Answering (VQA) 模型的学习能力。

Dec, 2020

跨语言视觉问答深入探究

该研究探讨了跨语言视觉问答的许多方面，包括输入数据、微调和评估方法，研究了不同多语言多模态变压器下不同问题类型的交互。该研究还针对训练数据和模型进行了广泛的分析，旨在进一步了解为什么在某些问题类型和语言中仍存在零 - shot 效果差距，从而指导多语言 VQA 的进一步发展。

Feb, 2022

通过对抗训练克服遥感视觉问答中的语言偏见

本研究提出了一种新的框架来减少 Visual Question Answering 系统中的语言偏差，具体地，在原 VQA 框架中添加了对抗分支和两个正则化器以限制训练过程中的语言偏差，并提出了一种新的性能度量方法来评估语言偏差，实验结果表明该方法简单有效。

Jun, 2023

通过对抗正则化克服视觉问答中的语言先验

本文提出了一种新颖的正则化方法，通过引入一个仅装载问题的对手模型并在视觉贡献约束之后训练视觉问答模型，取得了在多个基础模型上明显提高的效果，并在标准 VQA 任务中表现出少得多的准确率下降，从而降低了语言偏差的影响。

Oct, 2018