揭示视觉问答中交叉模态偏见:基于可能世界的因果视角 VQA 分析
本文提出了一种新的因果推断框架来缓解视觉问答模型中的语言偏见,可以从整体上减少语言上对回答结果的直接影响,实验结果表明,该框架可以适用于各种 VQA 问答模型,在均衡的 VQA v2 数据集上表现稳定, 同时在语言相关的 VQA-CP 数据集上达到有竞争力的表现。
Jun, 2020
本文通过一系列实验,探究语言模态对视觉问答模型在超出其学习领域的数据上的影响,提出简单的方法来减少模型对语言先验的依赖并在 out-of-distribution 测试集上提高性能。
May, 2023
本文通过利用结构化知识库进行确定性、最优和可控的词级替换,以探究 VQA 模型行为的解释和鲁棒性,并从反事实的回答中提取局部和全局解释,发现可能的偏见和影响模型的性能的预期和意外模式,揭示了模型决策过程中的潜在偏见。
Mar, 2023
近期,大型语言模型 (LLM) 的进展促进了多模态 LLM (MLLM) 的发展。虽然 MLLM 具有令人印象深刻的能力,但往往过于依赖单模态偏见(例如,语言偏见和视觉偏见),导致在复杂的多模态任务中回答错误。为了研究这个问题,我们提出了一个因果框架来解释视觉问答 (VQA) 问题中的偏见。在我们的框架中,我们设计了一个因果图来阐明 MLLMs 在 VQA 问题上的预测,并通过深入的因果分析评估偏见的因果效应。受到因果图的启发,我们引入了一个名为 MORE 的新数据集,包含了 12,000 个 VQA 实例。该数据集旨在挑战 MLLMs 的能力,需要进行多跳推理和克服单模态偏见。此外,我们提出了两种策略来减轻单模态偏见和增强 MLLMs 的推理能力,包括针对有限访问 MLLMs 的 “分解 - 验证 - 回答” (DeVA) 框架以及通过微调改进开源 MLLMs。广泛的定量和定性实验为未来的研究提供了宝贵的见解。
Mar, 2024
本文介绍了一个用于诊断视觉问答(VQA)模型中快速学习情况的评估方法,并提出了考虑问题和图片的多模态快捷方式问题。通过挖掘诸如词语和视觉元素的共现等规律等方法,首先在流行的 VQA v2 训练集中确定了可能的快速方式,然后引入基于我们的 CounterExamples 子集的 VQA-CounterExamples(VQA-CE)评估协议进行了大规模研究,发现即使是最先进的模型也难以处理这个复杂的问题。
Apr, 2021
通过建立基于内容和上下文的 CCB 模型,可以减少语言偏差,同时提高 Visual Question Answering (VQA) 模型的学习能力。
Dec, 2020
该研究探讨了跨语言视觉问答的许多方面,包括输入数据、微调和评估方法,研究了不同多语言多模态变压器下不同问题类型的交互。该研究还针对训练数据和模型进行了广泛的分析,旨在进一步了解为什么在某些问题类型和语言中仍存在零 - shot 效果差距,从而指导多语言 VQA 的进一步发展。
Feb, 2022
本研究提出了一种新的框架来减少 Visual Question Answering 系统中的语言偏差,具体地,在原 VQA 框架中添加了对抗分支和两个正则化器以限制训练过程中的语言偏差,并提出了一种新的性能度量方法来评估语言偏差,实验结果表明该方法简单有效。
Jun, 2023
本文提出了一种新颖的正则化方法,通过引入一个仅装载问题的对手模型并在视觉贡献约束之后训练视觉问答模型,取得了在多个基础模型上明显提高的效果,并在标准 VQA 任务中表现出少得多的准确率下降,从而降低了语言偏差的影响。
Oct, 2018