使用视觉编码器减少视觉问答中的语言偏差

ECCVJul, 2020

使用视觉编码器减少视觉问答中的语言偏差

Reducing Language Biases in Visual Question Answering with Visually-Grounded Question Encoder

Gouthaman KV, Anurag Mittal

TL;DR该研究提出了一种新的模型不可知的问题编码器 VGQE，它可以降低 VQA 模型对语言偏见的依赖，并提高性能。

Abstract

Recent studies have shown that current vqa models are heavily biased on the language priors in the train set to answer the question, irrespective of the image. E.g., overwhelmingly answer "what sport is" as "tenn

vqa bias visually-grounded question encoder language priors performance

发现论文，激发创造

通过对抗正则化克服视觉问答中的语言先验

本文提出了一种新颖的正则化方法，通过引入一个仅装载问题的对手模型并在视觉贡献约束之后训练视觉问答模型，取得了在多个基础模型上明显提高的效果，并在标准 VQA 任务中表现出少得多的准确率下降，从而降低了语言偏差的影响。

Oct, 2018

通过自监督学习克服语言先验的视觉问答

本研究介绍了一种自监督学习框架来解决视觉问答模型中固有数据偏差问题。我们利用自动生成的标签数据来平衡数据偏差，提出一种自监督辅助任务来减少语言先验的影响，从而提高 VQA 模型的准确性，无需引入额外的可视化注释。实验结果表明，我们的方法在常用基准 VQA-CP v2 上将整体准确性从 49.50％提高到 57.59％，可以将基于注释的方法的性能提高 16％，而无需使用外部注释。

Dec, 2020

通过对抗训练克服遥感视觉问答中的语言偏见

本研究提出了一种新的框架来减少 Visual Question Answering 系统中的语言偏差，具体地，在原 VQA 框架中添加了对抗分支和两个正则化器以限制训练过程中的语言偏差，并提出了一种新的性能度量方法来评估语言偏差，实验结果表明该方法简单有效。

Jun, 2023

不要仅仅猜测；观察并回答：克服视觉问答的先验知识

本文提出了一个新的 VQA 模型，其中通过引入不同的先验分布来防止模型仅仅依赖训练数据中的先验信息。该模型是 GVQA，与现有 VQA 模型相比，它具有更好的泛化性能和可解释性能。

Dec, 2017

在视觉问答中量化和缓解语言先验问题

本文针对视觉问答技术所面临的语言先验问题，设计了一个度量指标并提出了一种得分正则化模块，该模块采用成对学习方法，可以缓解语言先验问题，并提高骨干模型的性能。

May, 2019

语言引导的视觉问答：使用知识丰富的提示提升多模态语言模型

对于图像中的问题，通过使用语言指导（LG）如解释、图像标题、场景图等方面的共识知识、世界知识和理解创意和概念来回答问题更准确；提出了一种多模态框架，使用 CLIP 和 BLIP 模型通过 A-OKVQA、Science-QA、VSR 和 IconQA 数据集的多选问题回答任务进行了基准测试，语言指导使得 CLIP 的性能提高了 7.6%，BLIP-2 的性能提高了 4.8%；使用所提出的语言指导在 Science-QA、VSR 和 IconQA 数据集上也观察到了持续的性能改进。

Oct, 2023

精确赋能，过度分散：动态注入语言模型中的视觉问答知识

通过提供来自知识图谱中提取的相关外部知识，我们通过增强问题并实现可变数量的三元组，为知识增强的视觉问答模型带来了平均 4.75％的准确匹配得分提升，并展示了其在推理能力和泛化能力方面的优势。

Jun, 2024

视觉问答模型中显式偏差的发现

本研究利用规则挖掘算法对视觉问答模型中的数据偏差进行分析，并从中发现了一些亮点和异常行为。

Nov, 2018

基于 VQA 的视觉基础方法的负面案例分析

为解决当前 VQA 方法依赖于数据集偏见和统计相关性的问题，提出了利用视觉提示进行 VQA 模型性能优化的方法，但实现的改进并不是由于视觉提示的影响，而是正则化效应，为此提出了一种不需要外部数据注释的简单正则化方案。

Apr, 2020

在视觉问答中提升图像理解的作用：让 VQA 中的 V 更有意义

该研究通过收集相关的图像，用于构建一个平衡的数据集（VQA v2.0），并在此基础上比较现有的 VQA 模型的表现，发现这些模型都受到了语言先验的影响。此外，该研究还提出了一种可解释性模型，它不仅可以回答问题，而且还可以通过提供一个相似但不同的图像来提高用户对其信任度。

Dec, 2016