通过自监督学习克服语言先验的视觉问答

IJCAIDec, 2020

通过自监督学习克服语言先验的视觉问答

Overcoming Language Priors with Self-supervised Learning for Visual Question Answering

Xi Zhu, Zhendong Mao, Chunxiao Liu, Peng Zhang, Bin Wang...

TL;DR本研究介绍了一种自监督学习框架来解决视觉问答模型中固有数据偏差问题。我们利用自动生成的标签数据来平衡数据偏差，提出一种自监督辅助任务来减少语言先验的影响，从而提高 VQA 模型的准确性，无需引入额外的可视化注释。实验结果表明，我们的方法在常用基准 VQA-CP v2 上将整体准确性从 49.50％提高到 57.59％，可以将基于注释的方法的性能提高 16％，而无需使用外部注释。

Abstract

Most visual question answering (VQA) models suffer from the language prior problem, which is caused by inherent data biases. Specifically, VQA models tend to answer questions (e.g., what color is the banana?) based on the high-frequency answers (e.g., yellow) ignoring image contents. E

visual question answering language prior problem self-supervised learning biased data balanced data

发现论文，激发创造

在视觉问答中量化和缓解语言先验问题

本文针对视觉问答技术所面临的语言先验问题，设计了一个度量指标并提出了一种得分正则化模块，该模块采用成对学习方法，可以缓解语言先验问题，并提高骨干模型的性能。

May, 2019

通过对抗正则化克服视觉问答中的语言先验

本文提出了一种新颖的正则化方法，通过引入一个仅装载问题的对手模型并在视觉贡献约束之后训练视觉问答模型，取得了在多个基础模型上明显提高的效果，并在标准 VQA 任务中表现出少得多的准确率下降，从而降低了语言偏差的影响。

Oct, 2018

不要仅仅猜测；观察并回答：克服视觉问答的先验知识

本文提出了一个新的 VQA 模型，其中通过引入不同的先验分布来防止模型仅仅依赖训练数据中的先验信息。该模型是 GVQA，与现有 VQA 模型相比，它具有更好的泛化性能和可解释性能。

Dec, 2017

通过对抗训练克服遥感视觉问答中的语言偏见

本研究提出了一种新的框架来减少 Visual Question Answering 系统中的语言偏差，具体地，在原 VQA 框架中添加了对抗分支和两个正则化器以限制训练过程中的语言偏差，并提出了一种新的性能度量方法来评估语言偏差，实验结果表明该方法简单有效。

Jun, 2023

使用视觉编码器减少视觉问答中的语言偏差

该研究提出了一种新的模型不可知的问题编码器 VGQE，它可以降低 VQA 模型对语言偏见的依赖，并提高性能。

Jul, 2020

自监督反事实度量学习用于去偏视觉问答

我们提出了一种自我监督的反事实度量学习方法来应对 VQA 中的语言偏见问题，该方法可以自适应地选择与问题相关的视觉特征来回答问题，从而减少与问题不相关的视觉特征对推断答案的负面影响，实验证明了我们方法对 VQA-CP 数据集具有提升效果。

Apr, 2023

WeaQA: 通过标题的弱监督使视觉问答更准确

研究如何使用图像和相关描述文本生成合成的 Q-A 对集合，而无需人工标注，同时利用空间金字塔图像块作为一种简单而有效的 VQA 模型替代方案。

Dec, 2020

医学视觉问答的自监督视觉语言预训练

本文介绍了一种自我监督方法 - 对遮蔽图像建模、遮蔽语言建模、图像文本匹配和图像文本对齐进行对比学习的 M2I2 方法，应用于医学图像字幕数据集的预训练，并对下游医学 VQA 任务进行微调。该方法在三个公共医学 VQA 数据集上实现了最先进的性能。

Nov, 2022

在视觉问答中提升图像理解的作用：让 VQA 中的 V 更有意义

该研究通过收集相关的图像，用于构建一个平衡的数据集（VQA v2.0），并在此基础上比较现有的 VQA 模型的表现，发现这些模型都受到了语言先验的影响。此外，该研究还提出了一种可解释性模型，它不仅可以回答问题，而且还可以通过提供一个相似但不同的图像来提高用户对其信任度。

Dec, 2016

自监督预训练和对比表征学习在多项选择视频 QA 中的应用

本文介绍了一种新的多项选择视频问题回答（Video QA）的训练方案，其中包括自监督预训练阶段和监督对比学习的辅助学习。在自监督预训练阶段中，我们将原始问题格式进行了转化，以预测相关问题并提供模型更广泛的背景输入。然后，我们在对比学习的主阶段中添加了屏蔽噪声，并通过将正样本映射到受掩输入来改进模型表现。最后，我们采用了本地对齐注意力来更有效地关注相关字幕句子的视频帧。我们的实验结果表明，我们的模型在相关测试集上均取得了最先进的性能，并通过进一步的分析验证了我们的方法。

Sep, 2020