RUBi：减少视觉问答中单模态偏见

Jun, 2019

RUBi: Reducing Unimodal Biases in Visual Question Answering

Remi Cadene, Corentin Dancette, Hedi Ben-younes, Matthieu Cord, Devi Parikh

TL;DR提出了一种新的学习策略 RUBi，它减少了任何 VQA 模型中的偏差。通过使用语言模型捕捉语言偏见，并影响基础 VQA 模型的预测来动态调整损失，强制模型同时使用两种输入模态，以克服训练集分布之外的数据低效问题。在特定测试数据集上取得了当前最先进的结果。

Abstract

visual question answering (VQA) is the task of answering questions about an image. Some vqa models often exploit unimodal biases to provid

visual question answering vqa models biases rubi language model

发现论文，激发创造

超越基于问题偏见：对多模态快捷学习在视觉问答中的评估

本文介绍了一个用于诊断视觉问答（VQA）模型中快速学习情况的评估方法，并提出了考虑问题和图片的多模态快捷方式问题。通过挖掘诸如词语和视觉元素的共现等规律等方法，首先在流行的 VQA v2 训练集中确定了可能的快速方式，然后引入基于我们的 CounterExamples 子集的 VQA-CounterExamples（VQA-CE）评估协议进行了大规模研究，发现即使是最先进的模型也难以处理这个复杂的问题。

Apr, 2021

鲁棒视觉问答的生成偏差

采用基于生成网络、对抗性目标函数和知识蒸馏相结合的方法直接训练 VQA 模型的偏见模型，有效减轻 VQA 模型中的数据集偏差问题。

Aug, 2022

通过对抗训练克服遥感视觉问答中的语言偏见

本研究提出了一种新的框架来减少 Visual Question Answering 系统中的语言偏差，具体地，在原 VQA 框架中添加了对抗分支和两个正则化器以限制训练过程中的语言偏差，并提出了一种新的性能度量方法来评估语言偏差，实验结果表明该方法简单有效。

Jun, 2023

通过对抗正则化克服视觉问答中的语言先验

本文提出了一种新颖的正则化方法，通过引入一个仅装载问题的对手模型并在视觉贡献约束之后训练视觉问答模型，取得了在多个基础模型上明显提高的效果，并在标准 VQA 任务中表现出少得多的准确率下降，从而降低了语言偏差的影响。

Oct, 2018

听、看、回答：克服音频视觉问题回答中的偏差

音频 - 视觉问答（AVQA）是一个复杂的多模态推理任务，要求智能系统基于音频 - 视频输入对准确地回答自然语言查询。然而，现有的 AVQA 方法容易过度学习数据集偏差，导致鲁棒性差。我们提出了一个新的数据集（MUSIC-AVQA-R），并提出了一个鲁棒的架构，通过多方位的循环协作去偏策略来克服偏差学习问题。结果表明，该架构在两个数据集上均取得了最先进的性能，特别是在我们提出的数据集上提升了 9.68％。通过对我们的数据集进行评估，还突显了现有的多模态 QA 方法的有限鲁棒性。

Apr, 2024

强健的视觉问答：数据集，方法和未来挑战

视觉问答研究需要系统能够根据图像和自然语言问题提供准确的自然语言答案。然而，先前的通用 VQA 方法普遍存在记忆训练数据中的偏见而不是学习正确行为（如在预测答案之前进行图像建立联系）。因此，这些方法通常在分布内获得高性能但在分布外获得低性能。最近几年，已经提出了各种数据集和去偏见方法来评估和增强 VQA 的稳健性。本文提供了关于这一新兴领域的首个综述，重点讨论视觉问答中的这些问题。具体来说，首先概述了数据集的发展过程，从分布内和分布外的角度进行了分析。然后，研究了这些数据集使用的评估指标。第三，提出了一种类型学，介绍了现有去偏见方法的发展过程、相似之处与差异、稳健性比较和技术特征。此外，分析和讨论了 VQA 中代表性视觉与语言预训练模型的稳健性。最后，通过对现有文献的彻底审查和实验分析，从各个角度探讨了未来研究的关键领域。

Jul, 2023

利用语言偏见学习内容和上下文的视觉问答

通过建立基于内容和上下文的 CCB 模型，可以减少语言偏差，同时提高 Visual Question Answering (VQA) 模型的学习能力。

Dec, 2020

面向强健的视觉问答：通过对比学习充分利用偏倚样本

提出了一个名为 MMBS 的对比学习方法，通过去除与偏见相关的信息构建正样本进行训练，从而构建更加鲁棒的视觉问答模型并增加其对理性推理的贡献，同时在 VQA-CP v2 OOD 数据集上取得了竞争性的表现以及在 VQA v2 ID 数据集上保持了鲁棒的性能。

Oct, 2022

视觉问答模型中显式偏差的发现

本研究利用规则挖掘算法对视觉问答模型中的数据偏差进行分析，并从中发现了一些亮点和异常行为。

Nov, 2018

无法回答的视觉问答

本研究旨在构建一个值得信赖的 AI 系统，通过为 Visual Question Answering（VQA）模型教授弃权无法回答问题的能力。研究通过提供一个名为 UNK-VQA 的全面数据集来填补这一研究空白，该数据集特别设计用于解决无法回答的问题。同时，通过对图像或问题进行有意的扰动，充分评估了多模式大型模型的零或少样本性能，并提出了解决这些无法回答问题的简单方法。这一数据集将为提升 VQA 模型的弃权能力提供一个有价值的基准，从而增加 AI 系统的可信度。

Oct, 2023