通过参考生成的段落标题来提高视觉问答能力
本文提出了在成功的卷积神经网络-循环神经网络方法中加入高级概念的方法,并证明其在图像字幕和视觉问答中取得了显著的改进。 该机制还可用于合并外部知识,特别是允许在图像中回答有关内容的问题,即使图像本身不能提供完整答案。
Mar, 2016
本研究将视觉问题回答任务视为“特征提取”模块,提取图像和标题的表征,以此为基础对图像-标题进行排序并提出融合模型提高图像-标题匹配一致性的表现。实验发现,该模型在MSCOCO数据集上的字幕检索提高了7.1%,图像提取提高了4.4%。
May, 2016
本文针对视觉问答任务进行综述,比较传统的视觉元素和常识知识融合的方法。并对数据集进行了评估,结合Visual Genome数据集中的图像结构注释研究了不同复杂度的问答对。最后讨论了未来发展方向,重点关注结构化知识库和自然语言处理模型的连接。
Jul, 2016
本研究提出将端到端的VQA分解为解释和推理两步,使用预训练的属性检测器和图像字幕模型提取图像属性和生成图像描述,然后使用推理模块将这些解释代替图像推断问题的答案。通过对热门VQA数据集进行实验,我们证明了该系统具备解释性和进一步提高解释质量的内在能力。
Jan, 2018
本文介绍了一种新的方法来生成自然语言的解释,解释视觉问答(VQA)问题的答案,其包含图像中支持答案的证据,使用了场景图中的实体注释和VQA模型生成的关注图来证明。在Visual Genome(VG)数据集上运行算法,并进行内部用户研究,证明了我们的方法的有效性。
Feb, 2019
该文介绍了一种新的方法来提高视觉问题回答的性能,该方法利用深度学习的技术,结合语言和视觉的普适性知识来生成针对特定视觉问题的图像描述,并利用在线梯度方法自动确定与问题相关的描述来训练模型,实验结果表明,本方法取得了视觉问题回答领域的最新成果。
Jun, 2019
提出了一个用于场景文本视觉问答的多模态框架,采用“先定位再生成”的范式,将空间边界框作为连接文本和视觉模态的桥梁,通过预先训练的语言模型增强绝对准确率。
Apr, 2023
通过调查Visual Question Answering(视觉问题回答)领域的复杂性,本研究提供了对VQA数据集和方法的详细分类,展示了该领域的最新趋势、挑战和改进方向,并将VQA推广到多模态问答,探索与VQA相关的任务,并提出了一系列未来研究的开放性问题。
Nov, 2023
我们提出了一种名为GeReA的生成-推理框架,利用视觉和语言信息激活了多模态大语言模型(MLLM)作为隐式知识引擎,用于基于知识的视觉问答,它在OK-VQA和A-OKVQA数据集上的测试准确率分别为66.5%和63.3%,超过了所有先前的最先进方法。
Feb, 2024
通过在视觉问题回答(VQA)过程中利用图像描述作为中介步骤,建立零样本设置,探索了零样本VQA的影响。比较了最先进的图像描述模型对于不同问题类型的VQA性能在结构和语义上的影响,并在VQA过程中提出了一种简单高效的问题驱动图像描述方法,通过提取问题关键词、为每个图像-问题对生成描述,并将问题驱动的描述传输到大型语言模型中。研究发现利用图像描述和大型语言模型的能力,在零样本设置下能够实现竞争性的GQA性能。
Apr, 2024