生成问题相关的字幕以帮助视觉问答
本研究将视觉问题回答任务视为“特征提取”模块,提取图像和标题的表征,以此为基础对图像-标题进行排序并提出融合模型提高图像-标题匹配一致性的表现。实验发现,该模型在MSCOCO数据集上的字幕检索提高了7.1%,图像提取提高了4.4%。
May, 2016
本文针对视觉问答任务进行综述,比较传统的视觉元素和常识知识融合的方法。并对数据集进行了评估,结合Visual Genome数据集中的图像结构注释研究了不同复杂度的问答对。最后讨论了未来发展方向,重点关注结构化知识库和自然语言处理模型的连接。
Jul, 2016
本文提出了一种模型,能够从单个图像中生成具有不同类型的视觉问题。通过采样最可靠的问题类型来自动生成问,该方法在两个真实世界数据集上的实验结果表明,我们的模型在正确性和多样性方面都优于最强基线。
Dec, 2016
提出了一种视觉和文本问题回答(VTQA)模型,该模型使用自动生成的段落式标题来丰富图像的信息以帮助正确回答视觉问题,并使用交叉融合和基于强化学习的编码器解码器模型实现跨模态融合。模型在Visual Genome数据集上进行训练,显著提高了现有模型的性能。
Jun, 2019
本篇综述介绍了视觉问答(VQA)任务,包括基于自然语言描述的图像识别以及机器学习模型的研究,主要探讨了近期在该领域中公布的数据集、新的深度学习模型以及基于 VQA 模型的一些应用研究和挑战。
Aug, 2019
本文提出了使用图像-标题注释与文本问题生成的神经模型自动导出VQA示例的方法,从而改进了VQA数据的质量和量,并在零样本准确性方面取得了双位数的业界领先水平。
May, 2022
对于图像中的问题,通过使用语言指导(LG)如解释、图像标题、场景图等方面的共识知识、世界知识和理解创意和概念来回答问题更准确;提出了一种多模态框架,使用CLIP和BLIP模型通过A-OKVQA、Science-QA、VSR和IconQA数据集的多选问题回答任务进行了基准测试,语言指导使得CLIP的性能提高了7.6%,BLIP-2的性能提高了4.8%;使用所提出的语言指导在Science-QA、VSR和IconQA数据集上也观察到了持续的性能改进。
Oct, 2023
通过调查Visual Question Answering(视觉问题回答)领域的复杂性,本研究提供了对VQA数据集和方法的详细分类,展示了该领域的最新趋势、挑战和改进方向,并将VQA推广到多模态问答,探索与VQA相关的任务,并提出了一系列未来研究的开放性问题。
Nov, 2023
通过在视觉问题回答(VQA)过程中利用图像描述作为中介步骤,建立零样本设置,探索了零样本VQA的影响。比较了最先进的图像描述模型对于不同问题类型的VQA性能在结构和语义上的影响,并在VQA过程中提出了一种简单高效的问题驱动图像描述方法,通过提取问题关键词、为每个图像-问题对生成描述,并将问题驱动的描述传输到大型语言模型中。研究发现利用图像描述和大型语言模型的能力,在零样本设置下能够实现竞争性的GQA性能。
Apr, 2024