为视觉问答选择视觉-语言模型的指导
本文研究了基于深度学习模型的视觉问答模型,发现现有模型的准确率在60-70%之间,且本文提出系统分析这些模型行为的方法,发现这些模型存在缺点,包括不够全面、容易得出错误答案和不易更正的问题。
Jun, 2016
本文针对视觉问答任务进行综述,比较传统的视觉元素和常识知识融合的方法。并对数据集进行了评估,结合Visual Genome数据集中的图像结构注释研究了不同复杂度的问答对。最后讨论了未来发展方向,重点关注结构化知识库和自然语言处理模型的连接。
Jul, 2016
该研究通过收集相关的图像,用于构建一个平衡的数据集(VQA v2.0),并在此基础上比较现有的 VQA 模型的表现,发现这些模型都受到了语言先验的影响。此外,该研究还提出了一种可解释性模型,它不仅可以回答问题,而且还可以通过提供一个相似但不同的图像来提高用户对其信任度。
Dec, 2016
本研究探索了使用各种提示策略来增强零样本视觉问答性能的方法,重点关注BLIP2模型,通过在多个视觉问答数据集上进行全面研究,发现精心设计的问题模板和集成附加视觉提示,如图像标题,可以提高VQA绩效,特别是在与少量样本示例结合使用时。
Jun, 2023
对于图像中的问题,通过使用语言指导(LG)如解释、图像标题、场景图等方面的共识知识、世界知识和理解创意和概念来回答问题更准确;提出了一种多模态框架,使用CLIP和BLIP模型通过A-OKVQA、Science-QA、VSR和IconQA数据集的多选问题回答任务进行了基准测试,语言指导使得CLIP的性能提高了7.6%,BLIP-2的性能提高了4.8%;使用所提出的语言指导在Science-QA、VSR和IconQA数据集上也观察到了持续的性能改进。
Oct, 2023
通过调查Visual Question Answering(视觉问题回答)领域的复杂性,本研究提供了对VQA数据集和方法的详细分类,展示了该领域的最新趋势、挑战和改进方向,并将VQA推广到多模态问答,探索与VQA相关的任务,并提出了一系列未来研究的开放性问题。
Nov, 2023
通过提出创新的评估方法并修正现有的视觉问答基准,我们的研究旨在推进我们对文本生成视觉语言模型能力的理解,提出了一种基于著名视觉分类数据集的新型视觉问答基准,可以对文本生成视觉语言模型进行细粒度评估,并与辨别性视觉语言模型进行比较。我们建议利用标签空间的语义层次结构为细粒度分类任务中的粗略答案提出自动生成的后续问题,以改善评估模型预测的传统自然语言处理和基于语言模型的度量标准。我们进行了人工评估研究,基于这项研究,我们决定采用最终的度量标准。我们将我们的基准应用于一套视觉语言模型,并详细比较了它们在对象、行为和属性分类方面的能力。我们的研究为更精确、有意义的评估奠定基础,促进了视觉语言建模领域的有针对性进展。
Feb, 2024
综述了大语言模型与视觉语言模型的最新进展,分析了它们在视觉能力、多模态输入和基准数据集方面的优势和局限性,并提出未来研究的潜在方向。
Feb, 2024
本研究针对多模态大型语言模型(MLLM)在视觉理解方面的评估,提出了一种新方法,强调模型在独特描述极为相似图像时的能力。通过自我检索机制,使用D3基准测试,我们发现当前模型在细微视觉差异的辨别上表现欠佳,且开源模型的表现甚至未能超越随机猜测。
Sep, 2024
本研究针对视觉语言模型在视觉-语言推理能力,尤其是在计数和空间推理方面的不足进行探讨,同时现有基准未能有效评估其鲁棒性。我们提出DARE,一个多项选择的视觉问答基准,通过五个多样化类别和四个基于变异的鲁棒性评估,发现最先进的视觉语言模型在大多数类别的问题上表现不佳,且在鲁棒性评估中的表现波动较大。
Sep, 2024