R-VQA: 通过语义关注学习视觉关系事实用于视觉问答
本文针对视觉问答任务进行综述,比较传统的视觉元素和常识知识融合的方法。并对数据集进行了评估,结合Visual Genome数据集中的图像结构注释研究了不同复杂度的问答对。最后讨论了未来发展方向,重点关注结构化知识库和自然语言处理模型的连接。
Jul, 2016
该研究通过收集相关的图像,用于构建一个平衡的数据集(VQA v2.0),并在此基础上比较现有的 VQA 模型的表现,发现这些模型都受到了语言先验的影响。此外,该研究还提出了一种可解释性模型,它不仅可以回答问题,而且还可以通过提供一个相似但不同的图像来提高用户对其信任度。
Dec, 2016
本研究提出了一种基于关系感知图形注意力网络(ReGAT)的VQA模型,该模型通过图形注意机制将每个图像编码为图形,再通过多类型的物体关系建模,以学习问题自适应的关系表示,并在VQA 2.0和VQA-CP v2数据集上优于现有的VQA方法,同时具有通用的关系编码器功能。
Mar, 2019
提出了一种基于知识路线的视觉问题推理 VQA 模型评估数据集,通过控制程序来选择自然场景图和外部知识库中的三元组,强制进行多步推理,并平衡答案分布,以解决现有的 VQA 模型的浅层相关问题和注释程序不均衡的问题。
Dec, 2020
本文介绍了Visual Question Answering——Graph Neural Network模型,用于解决视觉理解中的概念层次推理问题,与现有模型相比,该模型将图像级别信息和概念知识进行了统一,并在VCR任务中取得了优于Trans-VL模型的最佳结果。此外,该模型还提供了跨视觉和文本知识领域的可解释性。
May, 2022
研究表明视觉表征在基于知识的视觉问答(VQA)中具有重要意义,特别是物体区域信息的利用可以显著提高系统性能。作者提出了一种名为 REVIVE 的新型基于知识的VQA方法,该方法旨在利用物体区域的显式信息不仅在知识检索阶段,而且在答案模型中提高系统性能,并在标准OK-VQA数据集上实现了最新的最高性能。
Jun, 2022
我们提出了一种不使用边界框的细化模型框架(LOIS)来解决视觉问题回答中关于对象语义因果关系的挑战,并通过两种关系注意力模块来处理实例遮罩引起的标签歧义。实验证明,我们的方法在改进视觉推理能力方面具有良好的性能。
Jul, 2023
对于图像中的问题,通过使用语言指导(LG)如解释、图像标题、场景图等方面的共识知识、世界知识和理解创意和概念来回答问题更准确;提出了一种多模态框架,使用CLIP和BLIP模型通过A-OKVQA、Science-QA、VSR和IconQA数据集的多选问题回答任务进行了基准测试,语言指导使得CLIP的性能提高了7.6%,BLIP-2的性能提高了4.8%;使用所提出的语言指导在Science-QA、VSR和IconQA数据集上也观察到了持续的性能改进。
Oct, 2023
通过调查Visual Question Answering(视觉问题回答)领域的复杂性,本研究提供了对VQA数据集和方法的详细分类,展示了该领域的最新趋势、挑战和改进方向,并将VQA推广到多模态问答,探索与VQA相关的任务,并提出了一系列未来研究的开放性问题。
Nov, 2023