通过区分表面相似的实例来克服视觉问答中的语言先验
本文提出了一个新的 VQA 模型,其中通过引入不同的先验分布来防止模型仅仅依赖训练数据中的先验信息。该模型是 GVQA,与现有 VQA 模型相比,它具有更好的泛化性能和可解释性能。
Dec, 2017
本文提出了一种新颖的正则化方法,通过引入一个仅装载问题的对手模型并在视觉贡献约束之后训练视觉问答模型,取得了在多个基础模型上明显提高的效果,并在标准 VQA 任务中表现出少得多的准确率下降,从而降低了语言偏差的影响。
Oct, 2018
本研究介绍了一种自监督学习框架来解决视觉问答模型中固有数据偏差问题。我们利用自动生成的标签数据来平衡数据偏差,提出一种自监督辅助任务来减少语言先验的影响,从而提高 VQA 模型的准确性,无需引入额外的可视化注释。实验结果表明,我们的方法在常用基准 VQA-CP v2 上将整体准确性从 49.50%提高到 57.59%,可以将基于注释的方法的性能提高 16%,而无需使用外部注释。
Dec, 2020
本文针对视觉问答技术所面临的语言先验问题,设计了一个度量指标并提出了一种得分正则化模块,该模块采用成对学习方法,可以缓解语言先验问题,并提高骨干模型的性能。
May, 2019
该研究提出了自我批判的训练目标,通过确定人类视觉 / 文本解释或仅来自问题和答案中的重要单词的具有影响力的图像区域,确保正确答案的视觉解释与竞争答案候选者相比更匹配,以解决 Visual Question Answering 系统在训练数据上捕捉表面统计相关性的问题。应用于 VQA-CP 数据集,使用文本解释获得 49.5%,使用自动注释区域获得 48.5%,在 VQA 泛化任务中达到了最新的技术水平。
May, 2019
本研究提出了一种新的框架来减少 Visual Question Answering 系统中的语言偏差,具体地,在原 VQA 框架中添加了对抗分支和两个正则化器以限制训练过程中的语言偏差,并提出了一种新的性能度量方法来评估语言偏差,实验结果表明该方法简单有效。
Jun, 2023
本篇综述介绍了视觉问答(VQA)任务,包括基于自然语言描述的图像识别以及机器学习模型的研究,主要探讨了近期在该领域中公布的数据集、新的深度学习模型以及基于 VQA 模型的一些应用研究和挑战。
Aug, 2019
该研究引入了一个新的视觉问答任务,即识别对原问题产生不同回答的图像,并通过这一任务来评估现有的 VQA 模型。尽管作者的模型在这一任务上表现出色,但研究结果表明,现有的最先进 VQA 模型所学习的多模态表示对于这一任务的表现并没有显著贡献,这表明在 VQA 基准测试上表现良好并不意味着具备更广泛的视觉语义推理能力。
Jun, 2018
这篇论文提出了一种新的 VQA 模型,利用问题类型先验信息,通过利用不同联合模态方法在回答不同类型的问题时的行为之间的多重交互来优化 VQA,实验表明该方法表现最佳。
Sep, 2020
本文提出了一种元学习的方法来解决图像问题回答(VQA)问题,并采用了原型网络和元网络两种技术,通过给定的例子来推理解决给定的问题,与现有技术相比,该方法能够产生具有更高罕见回答的召回率和更好的样本效率,是学习和推理基于视觉和语言的方法的重要一步。
Nov, 2017