不要仅仅猜测;观察并回答:克服视觉问答的先验知识
本文提出了一种新颖的正则化方法,通过引入一个仅装载问题的对手模型并在视觉贡献约束之后训练视觉问答模型,取得了在多个基础模型上明显提高的效果,并在标准 VQA 任务中表现出少得多的准确率下降,从而降低了语言偏差的影响。
Oct, 2018
本研究介绍了一种自监督学习框架来解决视觉问答模型中固有数据偏差问题。我们利用自动生成的标签数据来平衡数据偏差,提出一种自监督辅助任务来减少语言先验的影响,从而提高 VQA 模型的准确性,无需引入额外的可视化注释。实验结果表明,我们的方法在常用基准 VQA-CP v2 上将整体准确性从 49.50%提高到 57.59%,可以将基于注释的方法的性能提高 16%,而无需使用外部注释。
Dec, 2020
为解决当前 VQA 方法依赖于数据集偏见和统计相关性的问题,提出了利用视觉提示进行 VQA 模型性能优化的方法,但实现的改进并不是由于视觉提示的影响,而是正则化效应,为此提出了一种不需要外部数据注释的简单正则化方案。
Apr, 2020
本文提出了一种基于二元分类的简单替代模型来解决视觉问答中的一些问题,并通过在 Visual7W Telling 和 VQA Real Multiple Choice 任务上的实验表明该模型的简单版本同样具有竞争力,同时,作者发现现有的视觉问答系统性能的瓶颈可能在于其对问题及答案中基础概念的不足认知,其表现相对于充分利用数据集偏见的系统并没有显著提升。
Jun, 2016
本文提出了一种新的视觉问答框架,通过定义相同问题类型但回答不同的训练实例作为 “表面相似的实例”,并在此基础上构建一个区分模块,达到了超越语言先验的最先进性能。
Sep, 2022
这篇论文提出了一种新的 VQA 模型,利用问题类型先验信息,通过利用不同联合模态方法在回答不同类型的问题时的行为之间的多重交互来优化 VQA,实验表明该方法表现最佳。
Sep, 2020
该研究通过收集相关的图像,用于构建一个平衡的数据集(VQA v2.0),并在此基础上比较现有的 VQA 模型的表现,发现这些模型都受到了语言先验的影响。此外,该研究还提出了一种可解释性模型,它不仅可以回答问题,而且还可以通过提供一个相似但不同的图像来提高用户对其信任度。
Dec, 2016
本文针对视觉问答技术所面临的语言先验问题,设计了一个度量指标并提出了一种得分正则化模块,该模块采用成对学习方法,可以缓解语言先验问题,并提高骨干模型的性能。
May, 2019
该研究提出了自我批判的训练目标,通过确定人类视觉 / 文本解释或仅来自问题和答案中的重要单词的具有影响力的图像区域,确保正确答案的视觉解释与竞争答案候选者相比更匹配,以解决 Visual Question Answering 系统在训练数据上捕捉表面统计相关性的问题。应用于 VQA-CP 数据集,使用文本解释获得 49.5%,使用自动注释区域获得 48.5%,在 VQA 泛化任务中达到了最新的技术水平。
May, 2019
本篇文章提出了 iVQA 问题,利用变分模型来生成多样化、语法正确、与答案相关性较强的问题,并将其作为一种新型的视觉 - 语言理解基准测试。同时,还提出了使用强化学习框架来诊断现有 VQA 模型,揭示其内在缺陷的方法。
Mar, 2018