基于POS标记引导注意力的结构三元组学习用于视觉问答
本文提出了一种基于二元分类的简单替代模型来解决视觉问答中的一些问题,并通过在Visual7W Telling和VQA Real Multiple Choice任务上的实验表明该模型的简单版本同样具有竞争力,同时,作者发现现有的视觉问答系统性能的瓶颈可能在于其对问题及答案中基础概念的不足认知,其表现相对于充分利用数据集偏见的系统并没有显著提升。
Jun, 2016
本文针对视觉问答任务进行综述,比较传统的视觉元素和常识知识融合的方法。并对数据集进行了评估,结合Visual Genome数据集中的图像结构注释研究了不同复杂度的问答对。最后讨论了未来发展方向,重点关注结构化知识库和自然语言处理模型的连接。
Jul, 2016
该研究通过收集相关的图像,用于构建一个平衡的数据集(VQA v2.0),并在此基础上比较现有的 VQA 模型的表现,发现这些模型都受到了语言先验的影响。此外,该研究还提出了一种可解释性模型,它不仅可以回答问题,而且还可以通过提供一个相似但不同的图像来提高用户对其信任度。
Dec, 2016
本文提出了一种名为VQS的方法,将COCO数据集的实例分割与VQA数据集的问答进行连接,从而为视觉和语言建模提供更多有效的支持,包括VQA的监督式关注和一种新的基于问题的语义分割任务。
Aug, 2017
本文介绍了一种新的任务——ViQAR(视觉问题回答和推理),并提出了一种完全生成式的解决方案,它能够为视觉查询生成完整的答案和推理,我们通过定性和定量评估以及人类图灵测试表明,我们的模型能够生成强有力的答案和推理。
Oct, 2020
本研究利用已预训练的最新VQA模型和卷积序列到序列网络整合图像特征,作为VLSP2022-EVJVQA多语言场景下,视觉问答任务的解决方案,在公共测试集上达到了F1分数0.3442,在私人测试集上达到了0.4210,排名第三。
Mar, 2023
本研究探索了使用各种提示策略来增强零样本视觉问答性能的方法,重点关注BLIP2模型,通过在多个视觉问答数据集上进行全面研究,发现精心设计的问题模板和集成附加视觉提示,如图像标题,可以提高VQA绩效,特别是在与少量样本示例结合使用时。
Jun, 2023
对于图像中的问题,通过使用语言指导(LG)如解释、图像标题、场景图等方面的共识知识、世界知识和理解创意和概念来回答问题更准确;提出了一种多模态框架,使用CLIP和BLIP模型通过A-OKVQA、Science-QA、VSR和IconQA数据集的多选问题回答任务进行了基准测试,语言指导使得CLIP的性能提高了7.6%,BLIP-2的性能提高了4.8%;使用所提出的语言指导在Science-QA、VSR和IconQA数据集上也观察到了持续的性能改进。
Oct, 2023
通过调查Visual Question Answering(视觉问题回答)领域的复杂性,本研究提供了对VQA数据集和方法的详细分类,展示了该领域的最新趋势、挑战和改进方向,并将VQA推广到多模态问答,探索与VQA相关的任务,并提出了一系列未来研究的开放性问题。
Nov, 2023