本文针对视觉问答任务进行综述,比较传统的视觉元素和常识知识融合的方法。并对数据集进行了评估,结合Visual Genome数据集中的图像结构注释研究了不同复杂度的问答对。最后讨论了未来发展方向,重点关注结构化知识库和自然语言处理模型的连接。
Jul, 2016
本文介绍了一种新的视觉问答任务的基线模型,它可以根据图像的内容和自然语言的问题准确地产生答案,并取得了在不平衡和平衡的VQA基准测试中的最新成果。
Apr, 2017
本篇文章提出了iVQA问题,利用变分模型来生成多样化、语法正确、与答案相关性较强的问题,并将其作为一种新型的视觉-语言理解基准测试。同时,还提出了使用强化学习框架来诊断现有VQA模型,揭示其内在缺陷的方法。
Mar, 2018
本文介绍了一种新的任务——ViQAR(视觉问题回答和推理),并提出了一种完全生成式的解决方案,它能够为视觉查询生成完整的答案和推理,我们通过定性和定量评估以及人类图灵测试表明,我们的模型能够生成强有力的答案和推理。
Oct, 2020
介绍了 A-OKVQA 数据集,它包含了约 25000 个多样化的问题,需要广泛的常识和世界知识才能回答,相对于现有的基于知识的 VQA 数据集,这些问题通常不能通过简单地查询知识库来回答,而是需要对图像中所描绘的场景进行某种形式的常识推理,该数据集对几种最先进的视觉语言模型进行了基础性能测试。
Jun, 2022
本论文提出了一种名为“Prophet”的框架,采用两个补充答案启发式条目对GPT-3进行提示,以提高其理解任务的能力,从而在基于知识的视觉问答方面显著优于所有现有的最先进方法,分别在OK-VQA和A-OKVQA的测试集上达到了61.1%和55.7%的准确率。
Mar, 2023
对于图像中的问题,通过使用语言指导(LG)如解释、图像标题、场景图等方面的共识知识、世界知识和理解创意和概念来回答问题更准确;提出了一种多模态框架,使用CLIP和BLIP模型通过A-OKVQA、Science-QA、VSR和IconQA数据集的多选问题回答任务进行了基准测试,语言指导使得CLIP的性能提高了7.6%,BLIP-2的性能提高了4.8%;使用所提出的语言指导在Science-QA、VSR和IconQA数据集上也观察到了持续的性能改进。
Oct, 2023
通过设计一种框架,使得大型语言模型能够主动提问以揭示图像中的更多细节,改进了知识驱动的视觉问答任务的性能。
Nov, 2023
我们提出了一种名为Q&A Prompts的方法,该方法通过挖掘图像中的问题-回答对来发现丰富的视觉线索,并将其作为提示发送给预训练的多模态大型语言模型,以在需要涉及不同世界知识的具有挑战性的视觉问题回答数据集上实现了显著的改进。
Jan, 2024
Boter框架是一个新型的知识选择和问答系统,通过利用多模态大型语言模型的强大感知能力,显著提升了开放域知识问答的性能,取得了62.83%的最高准确率。
Apr, 2024