使用视觉编码器减少视觉问答中的语言偏差
本文提出了一种新颖的正则化方法,通过引入一个仅装载问题的对手模型并在视觉贡献约束之后训练视觉问答模型,取得了在多个基础模型上明显提高的效果,并在标准 VQA 任务中表现出少得多的准确率下降,从而降低了语言偏差的影响。
Oct, 2018
本研究介绍了一种自监督学习框架来解决视觉问答模型中固有数据偏差问题。我们利用自动生成的标签数据来平衡数据偏差,提出一种自监督辅助任务来减少语言先验的影响,从而提高 VQA 模型的准确性,无需引入额外的可视化注释。实验结果表明,我们的方法在常用基准 VQA-CP v2 上将整体准确性从 49.50%提高到 57.59%,可以将基于注释的方法的性能提高 16%,而无需使用外部注释。
Dec, 2020
本研究提出了一种新的框架来减少 Visual Question Answering 系统中的语言偏差,具体地,在原 VQA 框架中添加了对抗分支和两个正则化器以限制训练过程中的语言偏差,并提出了一种新的性能度量方法来评估语言偏差,实验结果表明该方法简单有效。
Jun, 2023
本文提出了一个新的 VQA 模型,其中通过引入不同的先验分布来防止模型仅仅依赖训练数据中的先验信息。该模型是 GVQA,与现有 VQA 模型相比,它具有更好的泛化性能和可解释性能。
Dec, 2017
本文针对视觉问答技术所面临的语言先验问题,设计了一个度量指标并提出了一种得分正则化模块,该模块采用成对学习方法,可以缓解语言先验问题,并提高骨干模型的性能。
May, 2019
对于图像中的问题,通过使用语言指导(LG)如解释、图像标题、场景图等方面的共识知识、世界知识和理解创意和概念来回答问题更准确;提出了一种多模态框架,使用 CLIP 和 BLIP 模型通过 A-OKVQA、Science-QA、VSR 和 IconQA 数据集的多选问题回答任务进行了基准测试,语言指导使得 CLIP 的性能提高了 7.6%,BLIP-2 的性能提高了 4.8%;使用所提出的语言指导在 Science-QA、VSR 和 IconQA 数据集上也观察到了持续的性能改进。
Oct, 2023
通过提供来自知识图谱中提取的相关外部知识,我们通过增强问题并实现可变数量的三元组,为知识增强的视觉问答模型带来了平均 4.75%的准确匹配得分提升,并展示了其在推理能力和泛化能力方面的优势。
Jun, 2024
为解决当前 VQA 方法依赖于数据集偏见和统计相关性的问题,提出了利用视觉提示进行 VQA 模型性能优化的方法,但实现的改进并不是由于视觉提示的影响,而是正则化效应,为此提出了一种不需要外部数据注释的简单正则化方案。
Apr, 2020
该研究通过收集相关的图像,用于构建一个平衡的数据集(VQA v2.0),并在此基础上比较现有的 VQA 模型的表现,发现这些模型都受到了语言先验的影响。此外,该研究还提出了一种可解释性模型,它不仅可以回答问题,而且还可以通过提供一个相似但不同的图像来提高用户对其信任度。
Dec, 2016