面向强健的视觉问答：通过对比学习充分利用偏倚样本

EMNLPOct, 2022

面向强健的视觉问答：通过对比学习充分利用偏倚样本

Towards Robust Visual Question Answering: Making the Most of Biased Samples via Contrastive Learning

Qingyi Si, Yuanxin Liu, Fandong Meng, Zheng Lin, Peng Fu...

TL;DR提出了一个名为 MMBS 的对比学习方法，通过去除与偏见相关的信息构建正样本进行训练，从而构建更加鲁棒的视觉问答模型并增加其对理性推理的贡献，同时在 VQA-CP v2 OOD 数据集上取得了竞争性的表现以及在 VQA v2 ID 数据集上保持了鲁棒的性能。

Abstract

Models for visual question answering (VQA) often rely on the spurious correlations, i.e., the language priors, that appear in the biased samples of training set, which make them brittle against the out-of-distribution (OOD) test data. Recent methods have achieved promising progress in

visual question answering biased sampling contrastive learning robust models spurious correlations

发现论文，激发创造

鲁棒视觉问答的生成偏差

采用基于生成网络、对抗性目标函数和知识蒸馏相结合的方法直接训练 VQA 模型的偏见模型，有效减轻 VQA 模型中的数据集偏差问题。

Aug, 2022

针对强鲁棒性视觉问答的反事实样本生成与训练

介绍了一个新的模型 - 不可知模型 Counterfactual Samples Synthesizing and Training（CSST）模型，可以消除 VQA 模型的语言偏见，并使模型变得更加视觉可解释和对语言变化更敏感，并在所有 OOD 基准测试上取得了创纪录的表现。

Oct, 2021

为强健视觉问答生成反事实样本

本研究提出一种针对视觉问答（VQA）模型的计数样本合成（CSS）训练方案，该方案通过掩盖图像中的关键对象或问题中的关键词并赋予不同的答案来生成大量反事实训练样本，从而提高模型的视觉可解释性和问题敏感性，进而提高模型性能。在模型 LMH 的基础上，我们在 VQA-CP v2 上取得了 58.95％的最高记录，增益为 6.5％。

Mar, 2020

自监督反事实度量学习用于去偏视觉问答

我们提出了一种自我监督的反事实度量学习方法来应对 VQA 中的语言偏见问题，该方法可以自适应地选择与问题相关的视觉特征来回答问题，从而减少与问题不相关的视觉特征对推断答案的负面影响，实验证明了我们方法对 VQA-CP 数据集具有提升效果。

Apr, 2023

玫瑰是红的，紫罗兰是蓝的…… 但 VQA 应该期望它们出现吗？

本文提出了 GQA-OOD 基准来评估视觉问答模型的推理能力，旨在解决现有基准存在的数据集偏差和评估方法的不足，并通过大规模实验验证了现有模型在处理罕见概念时的不足，提出了减少偏差的技术用于未来研究。

Jun, 2020

强健的视觉问答：数据集，方法和未来挑战

视觉问答研究需要系统能够根据图像和自然语言问题提供准确的自然语言答案。然而，先前的通用 VQA 方法普遍存在记忆训练数据中的偏见而不是学习正确行为（如在预测答案之前进行图像建立联系）。因此，这些方法通常在分布内获得高性能但在分布外获得低性能。最近几年，已经提出了各种数据集和去偏见方法来评估和增强 VQA 的稳健性。本文提供了关于这一新兴领域的首个综述，重点讨论视觉问答中的这些问题。具体来说，首先概述了数据集的发展过程，从分布内和分布外的角度进行了分析。然后，研究了这些数据集使用的评估指标。第三，提出了一种类型学，介绍了现有去偏见方法的发展过程、相似之处与差异、稳健性比较和技术特征。此外，分析和讨论了 VQA 中代表性视觉与语言预训练模型的稳健性。最后，通过对现有文献的彻底审查和实验分析，从各个角度探讨了未来研究的关键领域。

Jul, 2023

多项选择视觉问答及其之外的数据集偏差缓解

通过对视觉语言理解任务中的数据集偏差进行对抗数据合成和样本内反事实训练，提高模型的性能。

Oct, 2023

通过对抗正则化克服视觉问答中的语言先验

本文提出了一种新颖的正则化方法，通过引入一个仅装载问题的对手模型并在视觉贡献约束之后训练视觉问答模型，取得了在多个基础模型上明显提高的效果，并在标准 VQA 任务中表现出少得多的准确率下降，从而降低了语言偏差的影响。

Oct, 2018

通过对抗训练克服遥感视觉问答中的语言偏见

本研究提出了一种新的框架来减少 Visual Question Answering 系统中的语言偏差，具体地，在原 VQA 框架中添加了对抗分支和两个正则化器以限制训练过程中的语言偏差，并提出了一种新的性能度量方法来评估语言偏差，实验结果表明该方法简单有效。

Jun, 2023

再三思考：衡量消除问答模型预测快捷方式的效率

本文提出一种简单的方法，用于评估预训练模型在特定 spurious feature 上的依赖程度并评估各种预训练模型和去偏见方法在问答 (QA) 中对大量已知和新发现偏差的鲁棒性，发现去偏见方法的 OOD 收益不能通过减少对偏见特征的依赖来解释，我们进一步通过测量 OOD 模型的性能表明其依赖于偏见特征，这表明 QA 数据集中存在共享的偏见，同时也需要进一步的工作来提高 LLM 鲁棒性的报告水平。

May, 2023